Les modèles de langage de grande envergure (LLMs), notamment les modèles GPT, ont démontré de solides performances dans diverses tâches linguistiques. Cependant, leur architecture de décodeur présente encore des défis, particulièrement en ce qui concerne le temps de génération du premier token (TTFT) et le temps par token généré (TPOT). TTFT, dépendant de l’étendue du contexte utilisateur, et TPOT, essentiel pour la rapidité de génération des tokens suivants, ont conduit à des recherches sur des solutions comme la raréfaction et le décodage spéculatif pour résoudre ces problèmes de mémoire.

Des techniques de parallélisation, utilisant des méthodes en tensor et en séquence, visent à résoudre le problème de TTFT, bien qu’elles manquent encore d’optimisation pour une inférence LLM évolutive, en raison des inefficacités dans le calcul et la communication de l’attention. La gestion efficace du cache KV et le calcul rapide de la carte d’attention sont cruciaux pour minimiser le TTFT pour les longs contextes. Des approches d’optimisation comme PagedAttention et CacheGen traitent ces défis. Les techniques de parallélisation, telles que la parallélisation tensorielle et séquentielle, recherchent à optimiser le TTFT basé sur le calcul.

Les chercheurs d’Apple ont présenté KV-Runahead, une technique de parallélisation conçue pour l’inférence LLM visant à réduire le TTFT. En utilisant le mécanisme de cache KV existant, KV-Runahead optimise en distribuant la population du cache KV à travers divers processus, assurant un équilibrage de charge au niveau du contexte.

Les expériences réalisées sur un nœud unique équipé de 8 GPU NVidia A100, sous des conditions de bande passante haute (300GB/s) et basse (10GB/s), ont montré que KV-Runahead surpassait régulièrement la parallélisation tensorielle/séquentielle (TSP) dans plusieurs scénarios. Des variantes de KV-Runahead, y compris KVR-E avec partitionnement contextuel égal, KVR-S avec partitionnement recherché, et KVR-P avec partitionnement prédit, ont été évaluées pour leur efficacité. KV-Runahead atteint des accélérations significatives, même sur des réseaux à faible bande passante, montrant les avantages de son mécanisme de communication.

En résumé, KV-Runahead, en tirant parti de la calcul de l’attention causale dans le cache KV, réduit efficacement les coûts de calcul et de communication, offrant une réduction du TTFT par rapport aux méthodes existantes. Cette technique offre une résilience accrue, notamment dans des environnements à bande passante non uniforme, démontrant ainsi les bénéfices de son mécanisme innovant.