L’intelligence artificielle évolue rapidement, notamment avec le développement de modèles de langage massifs (LLM) comprenant plus de 70 milliards de paramètres. Ces modèles sont essentiels pour diverses tâches telles que la génération de textes créatifs et la traduction. Cependant, leur exploitation optimale nécessite l’apport humain via une technique appelée l’apprentissage par renforcement avec feedback humain (RLHF). La gestion des besoins en mémoire de ces modèles constitue le principal défi des cadres RLHF actuels.
Les approches actuelles RLHF impliquent souvent la division du LLM sur plusieurs GPU, mais cette stratégie présente des inconvénients. La fragmentation de la mémoire et la communication excessive entre les parties partitionnées ralentissent le processus global.
Pour relever ces défis, les chercheurs proposent OpenRLHF, un cadre RLHF révolutionnaire. OpenRLHF utilise Ray pour une répartition intelligente des tâches sur les GPU et vLLM pour améliorer la vitesse de calcul. Comparé au cadre DSChat, OpenRLHF a montré une rapide convergence de l’apprentissage d’un modèle LLaMA2 de 7B paramètres, réduisant significativement le temps de formation.
En conclusion, OpenRLHF surmonte les obstacles majeurs rencontrés dans la formation des LLM colossaux avec RLHF, ouvrant de nouvelles possibilités pour le traitement du langage et l’interaction des informations.