Dans le traitement du langage naturel (NLP), les chercheurs cherchent constamment à améliorer les capacités des modèles linguistiques, essentiels pour la génération de texte, la traduction et l’analyse de sentiments. Ces avancées nécessitent des outils sophistiqués pour évaluer ces modèles efficacement, comme Prometheus-Eval.
Prometheus-Eval est un répertoire offrant des outils pour former, évaluer et utiliser des modèles linguistiques, spécialisés dans l’évaluation d’autres modèles linguistiques. Il comprend le package Python Prometheus-eval, qui propose une interface simple pour évaluer les paires instruction-réponse. Ce package supporte des méthodes d’évaluation absolue et relative, permettant des évaluations complètes. L’évaluation absolue donne une note entre 1 et 5, tandis que l’évaluation relative compare les réponses pour déterminer la meilleure. Le package inclut aussi des ensembles de données d’évaluation et des scripts pour former ou ajuster des modèles Prometheus sur des ensembles de données personnalisés.
Les principales caractéristiques de Prometheus-Eval résident dans sa capacité à simuler les jugements humains et les évaluations basées sur des modèles de langage propriétaires. En fournissant un cadre d’évaluation robuste et transparent, Prometheus-Eval assure équité et accessibilité. Il élimine la dépendance aux modèles à source fermée pour l’évaluation et permet aux utilisateurs de construire des pipelines d’évaluation internes sans se soucier des mises à jour des versions de GPT. Prometheus-Eval est accessible à de nombreux utilisateurs, nécessitant seulement des GPU de qualité consommateur pour fonctionner.
Les chercheurs de KAIST AI, LG AI Research, Carnegie Mellon University, MIT, Allen Institute for AI et University of Illinois Chicago ont introduit Prometheus 2, un modèle d’évaluation linguistique de pointe. Prometheus 2 offre des améliorations significatives par rapport à son prédécesseur, supportant des formats d’évaluation directe (gradations absolues) et de classement pair-à-pair (gradations relatives), augmentant ainsi la précision des évaluations.
Prometheus 2 montre une corrélation de Pearson de 0,6 à 0,7 avec GPT-4-1106 sur une échelle de Likert à 5 points à travers plusieurs benchmarks d’évaluation directe, comprenant VicunaBench, MT-Bench et FLASK. Il atteint aussi un accord de 72% à 85% avec les jugements humains sur divers benchmarks de classement pair-à-pair, mettant en évidence sa précision élevée dans l’évaluation des modèles linguistiques.
Prometheus 2 est conçu pour être accessible et efficace, nécessitant seulement 16 Go de VRAM, le rendant adapté pour fonctionner sur des GPU de qualité consommateur. Cette accessibilité élargit son utilisation, permettant à plus de chercheurs de profiter de ses capacités d’évaluation avancées sans coût matériel élevé. Une version plus légère, Prometheus 2 (7B), atteignant au moins 80% des performances de son homologue plus grand, en fait un outil hautement efficace, surpassant des modèles tels que Llama-2-70B et rivalisant avec Mixtral-8x7B.
Le package Prometheus-Eval offre une interface directe pour évaluer les paires instruction-réponse en utilisant Prometheus 2. Les utilisateurs peuvent facilement passer entre les modes de gradation absolue et relative en fournissant différents formats de prompt. L’outil permet l’intégration de divers ensembles de données, assurant des évaluations complètes et détaillées. Le traitement par lots est également supporté, offrant une accélération de plus de dix fois pour les réponses multiples, le rendant extrêmement efficace pour les évaluations à grande échelle.
En conclusion, Prometheus-Eval et Prometheus 2 répondent au besoin crucial d’outils d’évaluation fiables et transparents en NLP. Ces outils offrent un cadre d’évaluation robuste, assurant l’équité et l’accessibilité, tout en fournissant des capacités d’évaluation avancées avec des performances impressionnantes. Les chercheurs peuvent désormais évaluer leurs modèles avec plus de confiance, disposant d’un outil complet et accessible.