Les modèles de langage volumineux (LLMs) sont une sous-catégorie de l’intelligence artificielle qui se concentre sur la compréhension et la génération du langage humain. Ils utilisent des architectures complexes pour produire des textes similaires à ceux des humains, facilitant ainsi des applications dans les services clients et la création de contenu.
Un défi majeur pour les LLMs est leur efficacité lors du traitement de longs textes. L’architecture Transformer, qu’ils utilisent, a une complexité temporelle quadratique, ce qui augmente considérablement la charge computationnelle avec des séquences prolongées. Les chercheurs ont introduit le mécanisme KV-Cache pour atténuer ce problème en stockant les clés et valeurs générées par les tokens passés, réduisant ainsi la complexité temporelle de quadratique à linéaire. Cependant, le KV-Cache augmente l’utilisation de la mémoire GPU, intensifiant ainsi les défis de gestion de la mémoire.
Une équipe de recherche des universités de Wuhan et de Shanghai Jiao Tong a proposé plusieurs méthodes de compression du KV-Cache pour optimiser son usage lors des phases de pré-entraînement, déploiement et inférence. Ces méthodes consistent à réduire la taille des vecteurs de clés et valeurs durant le pré-entraînement, et à déployer le KV-Cache sur plusieurs serveurs pour améliorer la gestion de la mémoire. Par exemple, l’attention paginée utilise une table de mappage pour stocker le KV-Cache de manière discontinue en mémoire GPU, minimisant la fragmentation et améliorant la vitesse d’inférence.
Des optimisations comme la méthode GQA, utilisée dans des modèles populaires tels que LLaMA2-70B, montrent une utilisation plus efficace de la mémoire en réduisant la taille du KV-Cache tout en maintenant les niveaux de performance. GQA a permis de réduire l’utilisation de la mémoire de chaque token de 0,5 Mo à 0,125 Mo, améliorant ainsi de manière significative l’efficacité. En outre, les modèles utilisant l’Attention Multi-Query (MQA) et GQA démontrent une meilleure capacité de traitement et une latence réduite, des métriques essentielles pour les applications en temps réel.
Ces méthodes optimisent la gestion de la mémoire dans les LLMs, favorisant des solutions d’IA plus durables et évolutives. Les travaux des universités de Wuhan et de Shanghai Jiao Tong offrent une feuille de route pour de futures avancées tout en soulignant l’importance cruciale de l’efficacité de la mémoire dans l’évolution des technologies de LLM. Ces stratégies ouvrent la voie à des applications plus sophistiquées des LLMs dans divers secteurs.
Pour en savoir plus, vous pouvez consulter l’article complet [ici](https://arxiv.org/abs/2407.18003). Assurez-vous de suivre les derniers développements sur nos réseaux sociaux et de vous abonner à notre newsletter pour rester informés des dernières avancées en AI.