La montée en puissance des grands modèles de traitement du langage naturel, tels que GPT-3 et GPT-4, a révolutionné le domaine. Basés sur des capacités de raisonnement impressionnantes, ces modèles peuvent comprendre et générer du texte similaire à celui des humains. Le raisonnement peut être divisé en deux catégories : le raisonnement déductif, tirant des conclusions spécifiques de principes généraux, et le raisonnement inductif, généralisant à partir d’exemples particuliers. Il est crucial de comprendre comment les modèles manipulent ces types de raisonnement pour évaluer leur véritable potentiel.
Un des défis majeurs est de déterminer quel raisonnement est plus difficile pour ces modèles. Alors que GPT-3 et GPT-4 excellent, des questions persistent sur leur capacité à raisonner véritablement ou à imiter des schémas appris. Une nouvelle étude explore cette question en analysant séparément le raisonnement déductif et inductif des LLM. Des recherches antérieures utilisaient des tâches diverses mais ne séparaient pas ces raisonnement, rendant difficile une évaluation individuelle.
Une équipe de chercheurs de l’Université de Californie à Los Angeles et d’Amazon a introduit le cadre SolverLearner, visant à dissocier l’induction de la déduction. Ce cadre teste les capacités inductives pures des LLM en utilisant des exemples contextuels sans règles préprogrammées. SolverLearner fonctionne en deux phases : proposition et exécution de fonction. La première phase consiste pour le LLM à sélectionner une fonction mappant des points d’entrée aux valeurs de sortie, similaire au raisonnement inductif humain. Ensuite, la fonction est exécutée par un interpréteur de code externe pour en vérifier l’exactitude.
Les résultats indiquent que les modèles LLM, notamment GPT-4, excellent en raisonnement inductif, affichant une précision quasi parfaite et une capacité à généraliser à partir d’exemples contextuels. Cependant, des défis subsistent en raisonnement déductif, particulièrement dans des tâches nécessitant des capacités contrefactuelles où les performances se dégradent. Cette étude met en lumière les forces et les limites des LLM, soulignant la nécessité de recherches futures pour améliorer le raisonnement déductif, surtout dans des contextes nouveaux. En somme, bien que des progrès remarquables aient été réalisés, la compréhension et l’amélioration des capacités de raisonnement des LLM restent une priorité.