Les modèles de langage de grande taille (LLM) peuvent induire les utilisateurs en erreur en fournissant des informations incorrectes avec une grande confiance, phénomène appelé hallucination. Cette désinformation confiante peut convaincre les gens de prendre des décisions basées sur des suppositions erronées, entraînant des conséquences négatives.
Pour régler ce problème, une solution potentielle serait que les LLM indiquent clairement la probabilité de véracité de leurs assertions. Les modèles actuels ne produisent pas d’écritures longues avec des affirmations de confiance calibrées.
Une équipe de chercheurs de Stanford propose un cadre d’entraînement en deux étapes pour la calibration linguistique :
1. **Apprentissage supervisé** : que le LLM produise du contenu longue avec des déclarations de confiance intégrées.
2. **Apprentissage par renforcement** : affiner davantage le modèle pour fournir des réponses calibrées.
Ce cadre a été testé avec Llama 2 7B, montrant des améliorations notables en calibration sans sacrifier la précision, validées par des évaluations automatiques et humaines. Le modèle calibré reste performant même en dehors de son domaine d’origine, comme pour écrire des biographies et répondre à des questions scientifiques.
Les contributions principales de cette recherche sont les suivantes :
1. Définition de la calibration linguistique pour des générations longue formant des projections probabilistes précises.
2. Développement d’un cadre en deux étapes : finetuning supervisé et apprentissage par renforcement.
3. Application à Llama 2 7B, offrant une meilleure calibration tout en préservant l’exactitude.
4. Maintien des performances hors domaine initial.
5. Utilisation de méthodes de notation appropriées pour une calibration de bout en bout efficace durant la prise de décision.
Pour plus d’informations, consultez l’article original sur arxiv.org.