L’intelligence artificielle multimodale se concentre sur le développement de modèles capables de traiter et d’intégrer diverses données, comme le texte et les images. Ces modèles sont essentiels pour répondre à des questions visuelles et générer des descriptions textuelles pour les images, soulignant la capacité de l’IA à comprendre et interagir avec un monde multifacette. L’intégration de différentes modalités d’information permet à l’IA d’exécuter des tâches complexes de manière plus efficace.

Un des principaux défis de l’IA multimodale est l’optimisation de l’efficacité des modèles. Les méthodes traditionnelles fusionnant des encodeurs ou décodeurs spécifiques à chaque modalité limitent souvent cette capacité d’intégration, augmentant les besoins en calcul et diminuant l’efficacité. Les chercheurs cherchent à concevoir de nouvelles architectures intégrant les données textuelles et visuelles dès le départ.

Les méthodes existantes traitent séparément les données textuelles et visuelles avant de les intégrer, ce qui peut être intensif en calcul et sous-exploiter le potentiel de fusion précoce des données. Cela conduit à des inefficacités et une incapacité à capturer les relations complexes entre différents types de données.

Pour relever ces défis, les chercheurs de Meta ont introduit MoMa, une nouvelle architecture de mélange d’experts (MoE) sensible à la modalité, conçue pour pré-entraîner des modèles de langage en fusion précoce. MoMa traite texte et images en séquences arbitraires, en utilisant des groupes d’experts spécifiques à chaque modalité. Chaque groupe gère exclusivement des tokens désignés avec des routages intelligents pour maintenir une adaptabilité sémantique. Cela améliore significativement l’efficacité du pré-entraînement.

La technologie derrière MoMa combine techniques de mélange d’experts (MoE) et de mélange de profondeurs (MoD). Dans MoE, les tokens passent par des blocs avant (experts) à chaque couche, divisés en groupes spécifiques au texte et à l’image, ce qui permet des voies de traitement spécialisées. MoD permet aux tokens de sauter sélectivement des calculs, optimisant davantage l’efficacité.

Les performances de MoMa ont été largement évaluées, montrant des améliorations substantielles en efficacité et en efficacité. Avec un budget d’un trillion de tokens, le modèle MoMa 1.4B a réduit les opérations en virgule flottante de 3,7× par rapport à une base de référence dense.

L’architecture innovante de MoMa représente une avancée significative dans l’IA multimodale, en intégrant des experts spécifiques à la modalité et des techniques de routage avancées. Cette innovation répond aux défis critiques d’efficacité computationnelle, ouvrant la voie à des systèmes d’IA multimodale plus performants et économes en ressources.

En résumé, l’architecture MoMa développée par Meta offre une solution prometteuse aux défis computationnels dans l’IA multimodale, utilisant des techniques de mélange d’experts et de profondeurs pour obtenir des gains d’efficacité tout en maintenant des performances solides. Cette percée prépare le terrain pour la prochaine génération de modèles d’IA multimodale.