Avec l’augmentation des données générées par l’IA, des inquiétudes surgissent quant à la dégradation des performances des modèles, un phénomène appelé « effondrement des modèles ». Ce problème limite le développement de méthodes efficaces pour résumer de grandes quantités de données textuelles.

Actuellement, diverses approches sont utilisées pour contrer cet effondrement, telles que l’apprentissage par renforcement avec feedback humain (RLHF), la curation des données et l’ingénierie des invites. RLHF, bien qu’efficace, est coûteux et difficilement évolutif. La curation et le filtrage des données synthétiques sont laborieux et ne garantissent pas toujours l’élimination du risque d’effondrement des modèles. L’ingénierie des invites, quant à elle, est limitée par les biais et faiblesses inhérents aux modèles.

Un groupe de chercheurs de Meta AI, NYU et l’Université de Pékin propose une nouvelle méthode utilisant des mécanismes de feedback pour sélectionner ou élaguer les données synthétiques. Les expériences, comme le calcul des valeurs propres de matrices par des transformateurs et la synthèse de résumés de nouvelles, ont démontré l’efficacité de cette approche, surpassant les modèles originaux même avec une fraction des données utilisées.

Ce travail offre une solution prometteuse au problème de l’effondrement des modèles en intégrant des mécanismes de feedback, assurant ainsi des performances soutenues sans dépendre fortement de l’intervention humaine.