En octobre 2023, une étape cruciale a été franchie dans le domaine du traitement automatique du langage naturel avec le lancement de « jina-embeddings-v2-base-en », le premier modèle d’encodage open-source avec une capacité de contexte de 8K. Ce développement a alimenté le débat sur l’efficacité des modèles d’encodage de longs contextes. La méthode traditionnelle du RAG (génération augmentée par récupération) rencontre des défis, notamment la perte d’informations contextuelles cruciales lors du découpage de textes en morceaux plus petits.
Cependant, la méthode innovante du « Late Chunking » propose une solution en appliquant une couche de transformer à l’ensemble du texte avant de le diviser en segments. Les résultats des tests ont montré que cette approche améliore significativement l’efficacité des récupérations d’informations, en particulier pour les longs textes. Cette avancée démontre l’importance de continuer à explorer des modèles d’encodage à contexte étendu pour préserver l’intégrité contextuelle et améliorer les résultats en traitement des textes.