Un aspect crucial de la recherche en IA consiste à ajuster les grands modèles de langage (LLM) pour qu’ils correspondent aux préférences humaines. Cette optimisation garantit que les systèmes d’IA génèrent des réponses utiles et alignées avec les attentes des utilisateurs. La méthode courante met l’accent sur l’apprentissage à partir des données de préférences humaines pour affiner ces modèles, rendant inutile la spécification manuelle des fonctions de récompense pour diverses tâches. Les deux principales techniques ici sont l’apprentissage par renforcement en ligne (RL) et les méthodes contrastives hors ligne.

Un défi majeur dans le réglage fin des LLMs selon les préférences humaines est la couverture limitée des datasets statiques. Ceux-ci ne reflètent pas toujours la diversité et la dynamique des préférences humaines dans les applications réelles, ce qui conduit à des performances sous-optimales. Pour y remédier, il faut des méthodes qui exploitent efficacement à la fois les datasets statiques et les données en temps réel.

Les techniques actuelles incluent des méthodes de RL en ligne comme l’optimisation des politiques proximales (PPO) et des méthodes contrastives hors ligne comme l’optimisation des préférences directes (DPO). Les méthodes de RL en ligne bénéficient de retours en temps réel mais sont coûteuses en calcul. Les méthodes hors ligne évitent l’échantillonnage en temps réel mais peuvent sur-apprendre et mal généraliser.

Des chercheurs de l’Université Carnegie Mellon, Aurora Innovation, et l’Université Cornell ont introduit la méthode HyPO (Hybrid Preference Optimization), qui combine les techniques en ligne et hors ligne pour améliorer les performances du modèle tout en maintenant une efficacité computationnelle. HyPO intègre des données hors ligne pour une optimisation initiale et utilise des données non-labellisées en ligne pour une régulation KL, garantissant une meilleure généralisation au-delà des données d’entraînement.

HyPO utilise un cadre algorithmique sophistiqué qui exploite les données hors ligne pour l’objectif DPO et des échantillons en ligne pour contrôler la divergence inverse KL. Cette méthode hybride résout les limites des méthodes purement hors ligne, comme le sur-apprentissage, en intégrant la robustesse des méthodes RL en ligne sans leur complexité computationnelle.

Les résultats empiriques de HyPO montrent une amélioration significative des performances dans des benchmarks comme la tâche de synthèse TL;DR et les évaluations générales de chat comme AlpacaEval 2.0 et MT-Bench. HyPO a enregistré des taux de réussite plus élevés et une meilleure maîtrise de la divergence KL par rapport aux méthodes DPO existantes.

En conclusion, l’introduction de l’optimisation hybride des préférences (HyPO), qui combine efficacement données hors ligne et en ligne, améliore l’alignement des modèles de langage avec les préférences humaines. Les améliorations de performances démontrées soulignent le potentiel de HyPO à fournir des systèmes d’IA plus précis et fiables.