Les modèles de langage à grande échelle (LLM) rencontrent des défis de déploiement dus à la latence causée par les contraintes de bande passante mémoire. Les chercheurs utilisent la quantification des poids uniquement pour résoudre ce problème, en compressant les paramètres des LLM à une précision plus faible. Cette méthode réduit la latence et les besoins en mémoire GPU. La mise en œuvre efficace requiert des noyaux de multiplication de matrices sur mesure, capables de déplacer, déquantifier et traiter les poids efficacement. FLUTE, une approche innovante, traite les matrices sous 8 bits, optimise la déquantification basée sur des tables de correspondance et améliore la répartition des charges de travail. Avec la restructuration des poids hors ligne, des tables de recherche vectorisées en mémoire partagée, et le partitionnement Stream-K, FLUTE gère la quantification faible en bits et non uniforme, améliorant performance et efficacité. Ses performances sont examinées sur des GPUs A6000 et A100, montrant des accélérations significatives et une flexibilité dans diverses configurations de quantification.