Modélisation linguistique a fait des pas de géant pour comprendre, générer et manipuler le langage humain. Cependant, ces modèles, en particulier les modèles récurrents, ont du mal à se souvenir d’informations sur de longs contextes, ce qui affecte leur performance. Les modèles basés sur les transformateurs excellent dans cette tâche mais nécessitent beaucoup de ressources. Pour surmonter cette limite, des chercheurs de Stanford et de l’Université de Buffalo ont introduit deux méthodes innovantes : JRT-Prompt et JRT-RNN.
JRT-Prompt renforce les modèles récurrents en répétant le contexte d’entrée plusieurs fois, ce qui permet au modèle de retenir et de rappeler les informations plus efficacement. D’un autre côté, JRT-RNN utilise une architecture récurrente non causale pour traiter le contexte de manière plus efficiente, améliorant ainsi la qualité du rappel.
Les résultats sont impressionnants : JRT-Prompt montre une amélioration de 11 points en présence de FlashAttention-2, tandis que JRT-RNN affiche une amélioration de 13,7 points avec 360 millions de paramètres et une augmentation significative de la capacité de traitement. Ces méthodes prometteuses démontrent que les performances des modèles récurrents peuvent égaler, voire surpasser, celles des transformateurs traditionnels tout en utilisant moins de mémoire. Les recherches soulignent l’importance de ces innovations pour des solutions de modélisation linguistique plus efficaces et de haute qualité.