Les modèles de langage (LM) sont conçus pour refléter une variété de perspectives, résultant souvent en des réponses génériques. Pour améliorer la personnalisation, les méthodes comme le réglage supervisé (SFT) et l’apprentissage par renforcement avec feedback humain (RLHF) peuvent être utilisées, mais nécessitent de grandes quantités de données, rendant leur application difficile pour des tâches spécifiques et nouvelles.

Les chercheurs de l’Université de Stanford ont introduit DITTO (Demonstration ITerated Task Optimization), une méthode utilisant des démonstrations de l’utilisateur pour aligner les sorties des modèles de langage et générer des données de comparaison en ligne à faible coût. DITTO donne la priorité aux démonstrations sur les sorties intermédiaires des LLM, et dépasse les approches comme le few-shot prompting et SFT avec un taux de réussite moyen de 19 points supérieur.

DITTO est capable d’apprendre des alignements fins de style et de tâches dans divers domaines comme les articles de presse et les emails. En utilisant des boucles itératives de démonstrations et de feedback, il améliore les résultats des modèles de langage, affichant un taux de victoire moyen de 77,09 %.

Ces résultats soulignent l’efficacité de l’approche axée sur les démonstrations pour la personnalisation des LLM, même avec un nombre limité de comportements démontrés. Cependant, des études supplémentaires sont nécessaires pour explorer d’autres tailles de modèles et types de données de préférence. Pour plus de détails, voir l’article et le code sur GitHub.