Les modèles de langage tels que GPT-4 excellent dans la compréhension linguistique, mais rencontrent des problèmes de mémoire GPU élevée pendant l’inférence, limitant leur évolutivité. Les méthodes existantes réduisent la mémoire en compressant le cache KV, mais négligent les dépendances entre couches et les demandes de pré-calcul. Par exemple, un modèle de 7 milliards de paramètres utilise 14 Go pour les paramètres mais 72 Go pour le cache KV. Des chercheurs de l’Université de Shanghai Jiao Tong et d’autres ont développé PyramidInfer, qui compresse le cache KV en ne conservant que les clés et valeurs contextuelles cruciales. Des tests montrent que PyramidInfer améliore le débit de 2,2 fois et réduit la mémoire du cache de plus de 54%.

Pour répondre à la demande croissante des chatbots, des stratégies efficaces sont essentielles. PyramidInfer se démarque en considérant la compression spécifique aux couches. En vérifiant les hypothèses ICR et RAC, PyramidInfer révèle une haute redondance dans les couches profondes, permettant une réduction significative du cache KV sans affecter la qualité de sortie. Des évaluations sur divers modèles confirment que PyramidInfer réduit l’utilisation de la mémoire GPU tout en maintenant la qualité de génération, faisant de cette approche une solution idéale pour les environnements à ressources limitées.