La méthode d’apprentissage par renforcement (RL) excelle pour des tâches uniques mais rencontre des difficultés avec le multitâche, surtout avec des formes robotiques variées. Les modèles du monde, qui simulent des environnements, offrent des solutions évolutives mais reposent souvent sur des méthodes d’optimisation inefficaces. Les grands modèles entraînés sur de vastes ensembles de données ont amélioré la généralisabilité en robotique, mais nécessitent des données presque expertes et s’adaptent difficilement à des morphologies diverses.
Des chercheurs de Georgia Tech et de l’UC San Diego ont introduit l’apprentissage de politiques avec de grands modèles du monde (PWM), une nouvelle approche d’apprentissage par renforcement basé sur des modèles (MBRL). Le PWM préentraîne des modèles du monde sur des données hors ligne et les utilise pour l’apprentissage de politiques par gradient de premier ordre. Cette approche surpasse les méthodes existantes en obtenant jusqu’à 27 % de récompenses en plus, sans planification en ligne coûteuse.
Contrairement aux méthodes à gradient de zéro ordre, le PWM utilise des gradients de premier ordre pour optimiser les politiques de manière efficace, réduisant ainsi la variance et améliorant l’efficacité des échantillons même dans des environnements complexes. Les tâches de contrôle complexes ont été évaluées dans des environnements comme Hopper et Humanoid avec le simulateur Flex.
Les résultats montrent que le PWM obtient des récompenses plus élevées et des paysages d’optimisation plus fluides que les méthodes comme SHAC et TD-MPC2. Malgré ses atouts, le PWM dépend fortement de données préexistantes, limitant son applicabilité dans les scénarios à faible données. Des recherches futures pourraient explorer des améliorations dans l’entraînement des modèles du monde et étendre le PWM à des environnements basés sur des images et des applications réelles.