Les modèles de type Large Vision-Language Models (VLMs) ont montré des capacités remarquables en tant qu’agents polyvalents capables de résoudre une grande variété de tâches en utilisant la pensée langagière. L’amélioration de leurs performances passe souvent par un ajustement fin avec des données spécifiques de suivi d’instructions visuelles, une méthode qui a prouvé son efficacité. Cependant, cette approche basée sur l’apprentissage supervisé à partir d’informations préalablement recueillies présente des limitations, notamment dans des environnements interactifs multi-étapes qui nécessitent à la fois compréhension linguistique et reconnaissance visuelle.

Pour contourner ces restrictions, l’apprentissage par renforcement (RL) offre une solution en optimisant les capacités décisionnelles des VLMs dans des situations complexes. Bien que le RL ait été utilisé pour former des agents sur des tâches textuelles variées, il reste sous-utilisé pour optimiser les VLMs pour des tâches intégrant traitement du langage et visuel.

Des recherches récentes ont abouti à un cadre algorithmique utilisant le RL pour optimiser les VLMs. Celui-ci fournit d’abord la description de la tâche au VLM, provoquant un raisonnement sous forme de chaîne de pensée (CoT). Ce stade est crucial car il permet au VLM d’examiner des étapes intermédiaires de raisonnement menant à l’action textuelle finale nécessaire.

Le texte produit par le VLM est ensuite transformé en actions exécutables pour que l’agent interagisse avec son environnement. Les récompenses obtenues via ces interactions permettent d’ajuster tout le VLM, améliorant ainsi ses capacités décisionnelles. Les résultats empiriques des tests ont montré que ce modèle renforce considérablement les performances des agents VLM dans les tâches décisionnelles. Par exemple, il a permis à un modèle de 7 milliards de paramètres de surpasser les modèles commerciaux populaires comme GPT-4V et Gemini.

L’équipe de chercheurs a souligné que ces avantages de performance sont dus à la composante de raisonnement CoT. Sans celle-ci, les performances globales du modèle diminuent considérablement, soulignant son rôle crucial dans l’amélioration des capacités décisionnelles des VLMs par le biais du framework RL.