Prévoir le comportement des systèmes d’IA de pointe tels que GPT-4, Claude, et Gemini est crucial pour anticiper leur potentiel et orienter leur développement. Les lois d’échelle, reliant les paramètres, les données, le calcul et la perte de préentraînement, sont bien établies. Cependant, les performances sur des tâches spécifiques demeurent imprévisibles à mesure que ces systèmes gagnent en ampleur. Par exemple, les résultats sur les benchmarks NLP standard évoluent parfois de manière inattendue, possiblement à cause des choix métriques et du manque de résolution.

L’article explore deux axes principaux. Le premier, « Au-delà des Benchmarks à Choix Multiples, » se concentre sur les tâches évaluées via des formats de choix multiples basés sur la vraisemblance logarithmique. Bien que ces tâches soient répandues et utiles, les conclusions peuvent être limitées en termes d’application plus large. Le second axe, « Prévoir les Performances des Benchmarks A Priori, » explique pourquoi les performances des benchmarks à choix multiples sont difficiles à prédire avec des métriques comme l’Exactitude et le Score de Brier sans utiliser de rétrocalcul.

Des chercheurs de l’Université de Cambridge, Stanford CS, EleutherAI, et MILA ont démontré que des métriques comme l’Exactitude, le Score de Brier et la Probabilité Correcte peuvent être évaluées à partir des sorties brutes des modèles. Cela est réalisé via une série de transformations qui altèrent progressivement la relation statistique entre ces métriques et les paramètres d’échelle. L’une des raisons principales est que ces métriques reposent sur une comparaison directe entre la sortie correcte et un ensemble limité de sorties incorrectes spécifiques. Par conséquent, prédire avec précision les performances downstream nécessite de modéliser comment la probabilité varie parmi des alternatives incorrectes spécifiques.

Les chercheurs ont étudié comment la masse de probabilité des choix incorrects fluctue avec l’augmentation du calcul, ce qui aide à comprendre pourquoi les métriques downstream peuvent être imprévisibles, tandis que les lois d’échelle de la perte de préentraînement sont plus cohérentes, car elles ne dépendent pas de choix incorrects spécifiques. Connaître ce qui influence les performances downstream est essentiel pour concevoir des évaluations efficaces des capacités avancées de l’IA. Pour voir comment les capacités downstream évoluent avec l’échelle pour différentes familles de modèles, des scores par échantillon sont générés à partir de diverses familles de modèles et de benchmarks NLP à choix multiples.

Prédire les performances sur les tests de questions à choix multiples nécessite de comprendre comment la probabilité de choisir la réponse correcte change avec l’échelle, ainsi que la probabilité de choisir une réponse incorrecte. Pour les métriques comme l’Exactitude, ces prédictions doivent être faites pour chaque question, car connaître la probabilité moyenne de choisir des réponses incorrectes globalement ne spécifie pas la probabilité de choisir une réponse incorrecte spécifique pour une question particulière. Il est donc crucial d’examiner comment les probabilités de choix corrects et incorrects évoluent ensemble avec l’augmentation de la puissance de calcul.

En conclusion, les chercheurs ont identifié un facteur conduisant à l’imprévisibilité des tests à choix multiples pour les modèles d’IA de pointe : la probabilité de choisir des réponses incorrectes. Les résultats obtenus peuvent être utilisés pour concevoir des évaluations futures des modèles d’IA, avec des prédictions plus fiables à mesure que les modèles gagnent en échelle. Les travaux futurs se concentreront sur la création d’évaluations plus prévisibles, en particulier pour les capacités complexes et importantes.