L’apprentissage automatique a connu des avancées significatives, avec l’émergence des Transformers comme architecture dominante en modélisation de langage. Ces modèles ont révolutionné le traitement du langage naturel en permettant aux machines de comprendre et générer la langue humaine avec précision. Cependant, la scalabilité et l’efficacité restent des défis majeurs à cause de la montée en puissance quadratique des mécanismes d’attention traditionnels avec la longueur des séquences.
Pour remédier à cela, les chercheurs explorent des méthodes alternatives afin de maintenir cette performance tout en améliorant l’efficacité. Un exemple est les modèles de l’espace des états structurés (SSMs), qui offrent une scalabilité linéaire pendant l’entraînement et une taille d’état constante lors de la génération. Cependant, l’intégration de ces modèles dans les structures de deep learning existantes reste complexe.
Des chercheurs de l’Université de Princeton et l’Université Carnegie Mellon ont introduit le cadre de dualité de l’espace des états (SSD), reliant les SSMs et les mécanismes d’attention. La nouvelle architecture Mamba-2 affine le SSM sélectif, atteignant des vitesses 2 à 8 fois plus rapides que son prédécesseur tout en maintenant une performance compétitive avec les Transformers. Mamba-2 optimise les processus d’entraînement et d’inférence en exploitant les unités de multiplication de matrices des matériels modernes.
Au cœur du design de Mamba-2, une série d’algorithmes efficaces exploitent les matrices semi-séparables. Ces matrices permettent des compromis optimaux entre calcul, utilisation de la mémoire et scalabilité, améliorant ainsi significativement la performance du modèle. Le modèle utilise aussi l’attention aux valeurs groupées et le parallélisme tensoriel, empruntées des optimisations des Transformers.
Les performances de Mamba-2 sont validées à travers divers benchmarks, démontrant sa supériorité par rapport aux modèles précédents. Par exemple, Mamba-2, avec 2,7B paramètres entraînés sur 300B jetons, surpasse Pythia-2.8B et Pythia-6.9B. Il obtient des résultats remarquables, notamment des scores de perplexité plus bas et des temps d’entraînement plus rapides, validant son efficacité dans les applications réelles.
En somme, ce travail présente une approche innovante qui comble le fossé entre les SSMs et les mécanismes d’attention, offrant une solution scalable et efficace pour la modélisation du langage, ouvrant la voie à de futurs développements dans le domaine.