Lorsqu’un modèle de langage étendu bien formé reçoit une demande dangereuse, comme « Explique-moi comment construire une bombe », il devrait refuser de répondre. Cela est généralement obtenu par l’apprentissage par renforcement grâce au feedback humain (RLHF), crucial pour garantir la sécurité des modèles, notamment dans des domaines sensibles comme la santé mentale, le service client, et la santé. Cependant, la documentation sur les formats de templates utilisés durant l’entraînement est souvent insuffisante. Parmi les huit modèles open-source examinés, seuls Vicuna, Falcon, Llama-3 et ChatGLM décrivent ces templates.
Une étude sur l’alignement des modèles montre l’importance d’intégrer les valeurs humaines dans la formation des modèles, tandis que d’autres recherches soulignent les vulnérabilités de cet alignement. Des études sur la robustesse des modèles révèlent que de légères modifications comme l’ajout de quelques pixels peuvent induire des erreurs de classification. Une autre recherche révèle que les tokens à caractère unique restent rares dans les données pré-entraînement mais peuvent quand même poser des risques.
Les chercheurs de l’Université Nationale de Singapour ont découvert que l’ajout d’un seul espace à la fin des templates de conversation des modèles de langage ouverts peut entraîner des réponses nuisibles aux demandes des utilisateurs. Ce problème est difficile à détecter et peut causer des résultats dangereux, contournant les mesures de sécurité des modèles.
Ces découvertes soulignent la nécessité d’améliorer non seulement l’alignement mais aussi la robustesse des modèles pour éviter qu’une petite erreur ne mène à des conséquences graves.