Les LMN ont démontré des capacités impressionnantes dans le traitement des tâches complexes de question-réponse, grâce aux avancées dans les architectures de modèles et les méthodes d’apprentissage. Les techniques comme l’incitation à la chaîne de pensée (CoT) gagnent en popularité pour améliorer l’explication et la précision des réponses en guidant le modèle à travers des étapes de raisonnement intermédiaire. Cependant, l’incitation CoT peut entraîner des sorties plus longues, augmentant le temps nécessaire pour générer des réponses en raison du processus de décodage mot par mot des transformateurs auto-régressifs. Cela pose des défis pour maintenir des conversations interactives, soulignant la nécessité de métriques pour évaluer la concision des sorties et de stratégies pour réduire les chaînes de raisonnement trop longues.
Des chercheurs du Département d’Excellence en Robotique et IA de la Scuola Superiore Sant’Anna et Mediavoice Srl ont analysé comment la longueur des sorties affecte le temps d’inférence des LMN. Ils ont proposé de nouvelles métriques pour évaluer la concision et la correction. Ils ont introduit une stratégie de prompt ingénierie raffinée, la chaîne de pensée contrainte (CCoT), qui limite la longueur des sorties pour améliorer la précision et le temps de réponse. Des expériences réalisées avec LLaMA2-70b sur le dataset GSM8K ont montré que limiter le raisonnement à 100 mots améliore la précision et réduit la longueur des sorties. L’étude met en évidence la nécessité de la brièveté dans le raisonnement des LMN et souligne l’efficacité variable de la CCoT selon la taille des modèles.
Les récentes recherches sur les LMN se sont concentrées sur l’amélioration de la précision, conduisant souvent à des réponses plus longues et détaillées. Ces sorties étendues peuvent provoquer des hallucinations, où le modèle génère des informations plausibles mais incorrectes, et des explications trop longues qui obscurcissent les informations clés. Diverses techniques de prompt ingénierie ont été développées pour y faire face, y compris l’incitation CoT, qui améliore le raisonnement mais augmente le temps de réponse. L’étude introduit des métriques pour évaluer à la fois la concision et la correction et propose une approche CoT raffinée, CCoT, pour contrôler la longueur des sorties tout en maintenant la qualité.
Le temps de génération des sorties des LMN est influencé par des facteurs tels que l’architecture du modèle, le prétraitement, le décodage et le prompt utilisé. Les sorties plus longues augmentent généralement le temps de réponse en raison de la nature itérative des modèles auto-régressifs. Les tests sur divers modèles (Falcon-7b/40b, Llama2-7b/70b) ont montré qu’à mesure que la longueur des sorties augmente, le temps de génération augmente également. L’incitation CoT, qui améliore la correction des réponses, allonge également les sorties et les temps de génération. Pour y remédier, une approche CCoT est proposée, limitant la longueur des sorties tout en maintenant la précision, réduisant efficacement le temps de génération.
Les expériences évaluent l’efficacité de l’approche CCoT par rapport à la CoT classique, en se concentrant sur l’efficacité, la précision et la capacité à contrôler la longueur des sorties. En utilisant le dataset GSM8K, divers LMN (par exemple, Llama2-70b, Falcon-40b) ont été testés. Les résultats montrent que la CCoT réduit le temps de génération et peut améliorer ou maintenir la précision. L’étude introduit également de nouvelles métriques (HCA, SCA, CCA) pour évaluer la performance des modèles, en tenant compte de la correction et de la concision. Les modèles plus grands comme le Llama2-70b bénéficient davantage de la CCoT, tandis que les plus petits modèles rencontrent des difficultés à répondre aux contraintes de longueur. La CCoT montre une efficacité et une précision concises améliorées, en particulier pour les LMN plus grands.
En conclusion, l’étude met en avant l’importance de la concision dans la génération de texte par les LMN et introduit la CCoT comme technique de prompt ingénierie pour contrôler la longueur des sorties. Les expériences montrent que les modèles plus grands comme le Llama2-70b et le Falcon-40b bénéficient de la CCoT, mais les modèles plus petits ont des difficultés à respecter les contraintes de longueur. L’étude propose également de nouvelles métriques pour évaluer l’équilibre entre concision et correction. Les recherches futures exploreront l’intégration de ces métriques dans l’affinage des modèles et examineront comment la concision impacte les phénomènes comme les hallucinations ou les raisonnements incorrects dans les LMN.