La synthèse de texte en parole (TTS) vise à convertir du texte en mots parlés avec un haut degré de naturel et d’intelligibilité. Ce domaine croise le traitement du langage naturel, le traitement du signal vocal, et l’apprentissage automatique. La technologie TTS est devenue essentielle dans diverses applications comme les assistants virtuels, les livres audio, et les outils d’accessibilité, avec pour objectif de générer une parole indistinguable des voix humaines.

Un défi majeur de la synthèse TTS est d’obtenir une parole de haute qualité et naturelle pouvant gérer diverses voix et accents. Les méthodes TTS traditionnelles, souvent tributaires de grandes quantités de données d’entraînement, ont des difficultés avec la variabilité des voix de locuteurs, ce qui limite leur évolutivité et flexibilité, surtout dans les scénarios d’apprentissage sans données préalables (zero-shot learning).

Les recherches actuelles incluent des approches TTS basées sur des réseaux neuronaux comme les modèles séquence-à-séquence et les auto-encodeurs variationnels. Le VALL-E, utilisant la modélisation de langage à codec neural, dispose de codes codecs discrets pour les tâches TTS. D’autres travaux incluent Voicebox et Audiobox avec des méthodes de correspondance de flux, tandis que NaturalSpeech 3 utilise des modèles de diffusion. Ces méthodes améliorent la qualité et la variabilité de la parole mais sont confrontées à des défis d’efficacité et de besoins en données, surtout dans les scénarios de zero-shot.

Les chercheurs de Microsoft ont introduit le VALL-E 2, une nouvelle approche utilisant la modélisation de langage à codec neural, inspirée par le succès des grands modèles de langage dans le traitement de texte. Cette méthode représente la parole comme des codes codecs discrets et aborde la TTS en tant que tâche de modélisation de langage à codec conditionnel. VALL-E 2 intègre deux améliorations clés : l’échantillonnage conscient des répétitions et la modélisation des codes groupés. Ces innovations visent à améliorer les capacités TTS en zero-shot grâce à une structure de modèle polyvalente et efficace.

Le VALL-E 2 utilise une approche en deux étapes impliquant des modèles autoregressifs (AR) et non-autoregressifs (NAR). Le modèle AR prédit une séquence de codes codecs utilisant l’échantillonnage par noyau avec des techniques conscientes des répétitions, assurant stabilité et diversité dans la sortie vocale. Le modèle NAR génère les codes restants, améliorant l’efficience et la robustesse. L’échantillonnage conscient des répétitions emploie de manière adaptative l’échantillonnage aléatoire ou par noyau pour chaque prédiction de token en fonction de la répétition du token dans l’historique de décodage. La modélisation des codes groupés partitionne les codes codecs en groupes, chacun étant modélisé comme une seule trame, réduisant la longueur de la séquence et améliorant les performances.

Les évaluations de performance de VALL-E 2 démontrent des améliorations significatives dans les scénarios TTS en zero-shot. Le modèle a été entraîné sur le dataset Libriheavy et évalué sur les datasets LibriSpeech et VCTK. Il a atteint la parité humaine en termes de robustesse, naturel et scores de similarité. Sur le dataset LibriSpeech, VALL-E 2 a obtenu un taux d’erreur de mots (WER) de 4.2% pour des prompts de 3 secondes et 3.8% pour des prompts de 5 secondes, comparé au WER de vérité terrain de 4.5%. Le score de similarité (SIM) pour VALL-E 2 était de 0.803 avec un échantillonnage unique et amélioré à 0.807 avec un échantillonnage cinq fois, indiquant une synthèse vocale très précise et naturelle. Dans le dataset VCTK, le modèle a atteint un score de robustesse de 0.3 et un score de naturel de 4.47 pour des prompts de 3 secondes, démontrant sa performance supérieure dans des scénarios de locuteurs divers.

La méthodologie de VALL-E 2 est détaillée et robuste. Le modèle AR est entraîné pour prédire la première séquence de codes codecs conditionnée sur la séquence textuelle de manière autoregressive. Le modèle NAR, quant à lui, prédit les codes codecs subséquents basés sur la sortie initiale du modèle AR, exploitant les conditions textuelles et acoustiques. Cette approche en deux étapes assure à la fois la stabilité et l’efficacité dans la génération de parole de haute qualité. La méthode d’échantillonnage consciente des répétitions améliore significativement la stabilité du décodage, tandis que la modélisation des codes groupés aborde le problème de modélisation de long contexte en réduisant la longueur de la séquence et en améliorant l’efficience d’inférence.

En conclusion, VALL-E 2 aborde des défis cruciaux dans la synthèse TTS en introduisant une nouvelle approche de modélisation de langage à codec. Cette méthode améliore les capacités d’apprentissage en zero-shot, offrant une synthèse de parole de haute qualité et naturelle avec une meilleure efficacité et robustesse. Les recherches menées par Microsoft marquent une avancée significative dans le développement de systèmes TTS évolutifs et flexibles, capables de synthétiser la parole pour diverses applications, des assistants virtuels aux outils d’accessibilité pour les personnes avec des troubles de la parole.