Les Modèles Visuel-Linguistique (MVL) ont montré des capacités impressionnantes en tant qu’agents adaptables, capables de résoudre une variété de tâches grâce à la pensée linguistique. Pour améliorer leur performance, il est bénéfique de les ajuster finement avec des données spécifiques suivant des instructions visuelles. Cette méthode, bien que efficace, repose beaucoup sur l’apprentissage supervisé à partir de données pré-collectées, ce qui peut limiter la diversité nécessaire pour les environnements interactifs impliquant plusieurs étapes et requérant une compréhension linguistique et visuelle.

L’apprentissage par renforcement (RL) surmonte ces limites et améliore les capacités décisionnelles des MVL dans des situations complexes et interactives. Bien que le RL ait été efficace pour former des agents sur des tâches textuelles, il n’a pas été largement utilisé pour optimiser les MVL dans les tâches nécessitant un traitement visuel et linguistique de bout en bout.

Des chercheurs ont récemment développé un cadre algorithmique utilisant le RL pour optimiser les MVL. Ce cadre présente la tâche au MVL, provoquant un raisonnement en chaîne (CoT), essentiel pour l’étude des étapes intermédiaires de raisonnement menant à l’action finale. Les résultats textuels du MVL sont transformés en actions exécutables permettant à l’agent d’interagir avec son environnement. Les récompenses issues de ces interactions sont utilisées pour ajuster finement le MVL via RL, renforçant ainsi ses capacités décisionnelles.

Les résultats empiriques montrent une amélioration significative des performances des agents MVL dans les tâches décisionnelles. Par exemple, cette approche a permis à un modèle de 7 milliards de paramètres de surpasser des modèles commerciaux populaires comme GPT-4V et Gemini. L’importance du raisonnement CoT est soulignée puisque les performances diminuent sans cet élément dans le cadre de formation RL, démontrant son rôle crucial dans l’amélioration des capacités décisionnelles des MVL.