Les modèles de langue de grande taille (LLM) affrontent un défi crucial lors de leur entraînement : la rareté imminente des données de qualité sur Internet. Il est prévu qu’en 2026, ces données seront épuisées, poussant les chercheurs à utiliser des données générées par des modèles ou synthétiques. Cette transition présente à la fois des opportunités et des risques. Alors que certaines études montrent que l’augmentation des données synthétiques peut améliorer les performances sur des tâches de raisonnement complexe, d’autres révèlent une tendance préoccupante : l’entraînement sur des données synthétiques peut amplifier les biais, propager des informations erronées et renforcer des propriétés stylistiques indésirables.

La gestion de ces données synthétiques pose un défi de taille puisque l’on ne comprend pas encore pleinement leur influence sur le comportement des LLM. Les chercheurs explorent diverses approches pour relever ces défis, notamment en se basant sur des méthodes traditionnelles telles que « l’enseignement forcé » avec des données d’expert, bien que cela montre des limites, particulièrement dans le raisonnement mathématique. Des efforts sont déployés pour générer des données synthétiques positives qui imitent les données d’entraînement de haute qualité, en utilisant des modèles enseignants plus robustes et du contenu auto-généré.

Des chercheurs de Carnegie Mellon University, Google DeepMind et MultiOn ont observé que les données positives améliorent les performances, bien que de manière plus lente que les données de pré-entraînement. Plus notablement, les réponses positives auto-générées se sont souvent révélées aussi efficaces que des données issues de modèles plus grands. Ils proposent également une approche robuste utilisant des données négatives, montrant que l’utilisation stratégique de ces données peut améliorer l’efficience des données jusqu’à huit fois par rapport à l’utilisation de données positives uniquement.

Pour mieux illustrer ce point, il est comparable à l’utilisation d’une combinaison de stratégies dans le sport : imaginez un entraîneur combinant des séances de visionnage de matchs (données positives) avec des exercices intensifs de correction d’erreurs (données négatives). Cette combinaison permettrait de maximiser les performances de l’équipe de manière significative. Dans l’entraînement LLM, cela pourrait être vu par l’utilisation d’optimisation de préférence directe (DPO) à chaque étape critique pour se concentrer sur les processus de raisonnement les plus déterminants.

Des lois de mise à l’échelle pour les deux types de données sur des référentiels courants de raisonnement sont développées, offrant des perspectives précieuses pour optimiser l’utilisation des données synthétiques pour améliorer les capacités de raisonnement mathématique des LLM. En conclusion, bien que l’utilisation de données synthétiques présente des défis, une approche équilibrée et bien étudiée permet de surmonter ces obstacles et d’améliorer considérablement les performances des modèles, tout comme dans le sport où une stratégie diversifiée mène souvent au succès.