Des chercheurs de Stanford présentent un cadre en deux étapes pour l'ajustement linguistique des textes longs

Les modèles de langage de grande taille (LLM) peuvent induire les utilisateurs en erreur en fournissant des informations incorrectes avec une grande confiance, phénomène appelé hallucination. Cette désinformation confiante peut convaincre les gens de prendre des décisions basées sur des suppositions erronées, entraînant des conséquences négatives.

Pour régler ce problème, une solution potentielle serait que les LLM indiquent clairement la probabilité de véracité de leurs assertions. Les modèles actuels ne produisent pas d’écritures longues avec des affirmations de confiance calibrées.

Une équipe de chercheurs de Stanford propose un cadre d’entraînement en deux étapes pour la calibration linguistique :

1. **Apprentissage supervisé** : que le LLM produise du contenu longue avec des déclarations de confiance intégrées.
2. **Apprentissage par renforcement** : affiner davantage le modèle pour fournir des réponses calibrées.

Ce cadre a été testé avec Llama 2 7B, montrant des améliorations notables en calibration sans sacrifier la précision, validées par des évaluations automatiques et humaines. Le modèle calibré reste performant même en dehors de son domaine d’origine, comme pour écrire des biographies et répondre à des questions scientifiques.

Les contributions principales de cette recherche sont les suivantes :

1. Définition de la calibration linguistique pour des générations longue formant des projections probabilistes précises.
2. Développement d’un cadre en deux étapes : finetuning supervisé et apprentissage par renforcement.
3. Application à Llama 2 7B, offrant une meilleure calibration tout en préservant l’exactitude.
4. Maintien des performances hors domaine initial.
5. Utilisation de méthodes de notation appropriées pour une calibration de bout en bout efficace durant la prise de décision.

Pour plus d’informations, consultez l’article original sur arxiv.org.

Des chercheurs de Stanford présentent un cadre en deux étapes pour l’ajustement linguistique des textes longs

Articles

Des chercheurs de Stanford présentent un cadre en deux étapes pour l’ajustement linguistique des textes longs

Articles

SolverLearner : Un Cadre IA Révolutionnaire pour Tester et Évaluer les Capacités de Raisonnement Inductif des Modèles de Langage

Jina AI dévoile ‘Late Chunking’ : Une méthode simple d’IA pour incorporer de courts fragments en exploitant les modèles d’incrustation de long contexte

Révélation des Stratégies de Jeu Supérieures : Une Étude sur l’IA Présente GRATR, une Approche Révolutionnaire pour la Fiabilité Raisonnée