Comprendre le langage parlé pour les grands modèles de langage (LLMs) est essentiel pour créer des interactions plus naturelles avec les machines. Les modèles traditionnels, excellents pour les tâches textuelles, ont du mal avec la parole humaine, limitant leur potentiel dans des applications réelles comme les assistants vocaux. Homebrew Research présente Llama3-s v0.2 pour relever ce défi. Ce modèle améliore la compréhension de la parole en utilisant un encodeur audio pré-entraîné pour convertir l’audio en représentations numériques. Un entraînement multimodal intègre texte et audio, permettant à Llama3-s v0.2 d’apprendre efficacement la relation entre le langage parlé et écrit. Le modèle suit un processus de formation en deux étapes : pré-entraînement avec des données de parole réelles et ajustement avec des données synthétiques. Llama3-s v0.2 surpasse les modèles existants dans plusieurs évaluations, bien que des limites subsistent face au bruit de fond et aux entrées audio prolongées. Ce modèle représente une avancée significative, ouvrant de nouvelles possibilités d’application.