L’un des défis les plus ardus en matière de traduction est la traduction simultanée de la parole (TSP). Cette capacité à traduire des mots parlés en temps réel ouvre la voie à une communication instantanée au-delà des barrières linguistiques. La recherche en traitement automatique du langage naturel (TALN) a suscité beaucoup d’intérêt pour l’interprétation autonome assistée par des machines. Les systèmes de traduction simultanée traditionnels utilisent généralement un modèle en cascade comprenant la reconnaissance automatique de la parole (RAP), la ponctuation et la traduction automatique (TA). Cependant, le module RAP est une source fréquente de latence et de propagation d’erreurs.
Bien que les modèles académiques et les moteurs commerciaux de TSP aient beaucoup progressé, la qualité de la traduction nécessite encore des améliorations. Les systèmes existants n’offrent que moins de 42% d’informations correctes aux auditeurs, alors que les traducteurs humains peuvent transmettre au moins 95% des informations. Pour améliorer cette situation, les chercheurs de ByteDance ont introduit CLASI, un agent multilingue capable d’interprétation simultanée grâce à l’exécution répétée de diverses opérations.
CLASI surmonte plusieurs obstacles en segmentant les phrases complètes en morceaux plus gérables, et en utilisant une méthodologie d’apprentissage fondée sur les données. Pour traiter les termes rares, l’agent CLASI est doté d’une mémoire contextuelle et d’une base de connaissances externe. Afin de réduire le bruit et d’améliorer l’efficacité, la méthode Multi-Modal Retrieval Augmented Generation (MM-RAG) est utilisée. Cette approche permet de rechercher dans une base de données externe les informations pertinentes, pour une traduction plus précise.
Le nouveau critère d’évaluation, le Valid Information Proportion (VIP), s’aligne avec les performances des interprètes humains. Les chercheurs ont constaté que la méthode proposée dépasse significativement les autres algorithmes disponibles lors d’évaluations humaines sur de longs discours réels et variés. Par exemple, dans la traduction du chinois à l’anglais, CLASI obtient un score VIP de 81,3%, nettement supérieur à celui des interprètes humains.
En conclusion, bien que CLASI dépasse les systèmes actuels, la recherche doit se poursuivre pour améliorer les modèles de récompense multimodaux et les approches d’apprentissage par renforcement. Des domaines prometteurs incluent l’intégration multimodale pour une production de bout en bout, comme la vidéo-à-vidéo ou la parole-à-parole.