Un des défis émergents de l’intelligence artificielle est de savoir si la prédiction du prochain token peut véritablement modéliser l’intelligence humaine, surtout en matière de planification et de raisonnement. Malgré l’utilisation extensive des modèles de langage modernes, cette méthode semble limitée pour les tâches nécessitant une prévoyance et une prise de décision avancées. Surmonter ce défi pourrait permettre de développer des systèmes d’IA capables de raisonnement et de planification complexes, améliorant leur utilité dans divers scénarios réels.

Les méthodes actuelles reposant principalement sur la prédiction du prochain token via des inférences auto-régressives et le teacher-forcing pendant l’entraînement ont réussi dans plusieurs applications, comme la modélisation du langage et la génération de texte. Toutefois, ces méthodes présentent des limitations significatives. L’inférence auto-régressive souffre de l’accumulation d’erreurs, où des inexactitudes peuvent entraîner des écarts substantiels dans les séquences longues. Le teacher-forcing, de son côté, échoue souvent à apprendre correctement la prédiction du prochain token pour certaines tâches, créant des raccourcis qui nuisent à l’apprentissage des dépendances séquentielles nécessaires à une planification et un raisonnement efficaces.

Les chercheurs proposent une approche novatrice en défendant un objectif de prédiction multi-tokens, cherchant à pallier les lacunes des méthodes actuelles. Cette approche consiste à prédire plusieurs tokens à l’avance, réduisant ainsi les problèmes d’accumulation d’erreurs et les raccourcis induits par le teacher-forcing. Cette innovation se distingue par sa robustesse et son exactitude accrues en matière de prédiction de séquences, améliorant la capacité des modèles à planifier et raisonner sur des séquences plus longues.

Leur méthode consiste à prédire plusieurs tokens simultanément durant l’entraînement, évitant ainsi les écueils des méthodes traditionnelles. Les chercheurs ont démontré l’échec des méthodes traditionnelles à travers une tâche de planification minimale en utilisant un problème de recherche de chemin sur un graphe. Tant les architectures Transformer que Mamba ont échoué à apprendre correctement la tâche sous les méthodes traditionnelles. Le jeu de données utilisé comprenait des graphes en étoile de chemins avec diverses longueurs et degrés, où les modèles devaient trouver des chemins d’un nœud de départ à un nœud objectif.

Les résultats montrent que les architectures traditionnelles ont échoué à prédire avec précision les prochains tokens lors de la tâche de recherche de chemin. Les méthodes traditionnelles de prédiction du prochain token ont montré des limitations considérables, avec une accumulation d’erreurs conduisant à des inexactitudes sur des séquences longues. En revanche, l’approche multi-tokens proposée a montré une amélioration significative en termes de précision et de performance, réussissant à atténuer les problèmes rencontrés avec l’inférence auto-régressive et le teacher-forcing.

En conclusion, cette recherche aborde le défi critique de savoir si la prédiction du prochain token peut véritablement modéliser l’intelligence humaine dans les tâches nécessitant planification et raisonnement. Les chercheurs proposent une approche multi-tokens novatrice, démontrant son efficacité par une évaluation empirique sur une tâche de recherche de chemin. Cette alternative prometteuse améliore les capacités de planification et de raisonnement des modèles d’IA, représentant une avancée significative dans la recherche en IA.