Ces dernières années, la génération d’images a fait des progrès considérables grâce aux avancées des transformateurs et des modèles de diffusion. Malgré le succès de ces méthodes, les tokeniseurs d’images présentent des limites inhérentes à leur conception. Ils supposent que l’espace latent doit conserver une structure 2D pour maintenir une correspondance directe entre les tokens latents et les segments d’image.
Un article récent décrit trois approches pour la compréhension et le traitement des images : la tokenisation des images, la tokenisation pour la compréhension des images, et la génération d’images. Les chercheurs de l’Université Technique de Munich et de ByteDance ont proposé une approche innovante, le TiTok, qui tokenise les images en séquences latentes 1D. Utilisant un encodeur ViT, un décodeur ViT, et un quantificateur vectoriel, TiTok transforme les images en séquences de tokens latents.
TiTok montre son efficacité en génération d’images en utilisant MaskGIT pour son cadre de génération. Cette méthode permet une représentation plus compacte et rapide, surpassant les méthodes traditionnelles à des résolutions plus élevées. Par exemple, une image de 256×256 pixels peut être réduite à seulement 32 tokens discrets, améliorant ainsi la vitesse de génération de manière significative.