L’évaluation des modèles de langage (LMs) demeure cruciale pour mesurer leurs capacités, suivre les avancées scientifiques et guider leur sélection. Toutefois, les benchmarks traditionnels ont du mal à révéler de nouvelles tendances et se montrent parfois trop faciles pour les modèles évolués, limitant leur potentiel d’amélioration. L’article met en lumière trois critères essentiels souvent absents des benchmarks actuels : la pertinence, l’originalité et la difficulté.
Pour combler cette lacune, les chercheurs ont développé AutoBencher, un outil qui génère automatiquement des ensembles de données répondant à ces trois critères en exploitant des sources d’information privilégiées. Par exemple, AutoBencher peut détecter des lacunes dans la connaissance des LMs sur des sujets moins courants tels que l’extinction du Permien ou le fordisme.
En utilisant un modèle de langage pour proposer des sujets d’évaluation et créer des ensembles de données, AutoBencher évalue chacun en fonction de sa pertinence, son originalité et sa difficulté avant de les inclure dans le benchmark. Cette approche adaptative et itérative permet de perfectionner continuellement la génération des ensembles de données pour maximiser les propriétés recherchées. Notamment, les résultats montrent que les benchmarks créés par AutoBencher sont en moyenne 27 % plus originaux et 22 % plus difficiles que ceux élaborés par des humains.
Ce nouvel outil a été employé pour créer des ensembles de données dans divers domaines tels que les mathématiques, l’histoire, la science, l’économie et le multilinguisme, révélant ainsi de nouvelles tendances et des lacunes dans les performances des modèles. En automatisant la création de benchmarks pertinents, originaux et difficiles, AutoBencher offre une solution prometteuse pour évaluer plus efficacement les modèles de langage et orienter leur développement futur.
Ce travail met en exergue les faiblesses actuelles des modèles tout en ouvrant la voie à leur amélioration. Pour plus de détails, consultez le papier et la page GitHub des chercheurs.
N’oubliez pas de suivre nos mises à jour sur Twitter et de vous abonner à notre newsletter pour rester informé des dernières nouvelles en intelligence artificielle et en science des données.