Hugging Face a récemment annoncé la sortie de la version 4.42 de sa bibliothèque Transformers, apportant de nombreuses nouvelles fonctionnalités. Parmi celles-ci figurent l’introduction de modèles avancés comme Gemma 2, RT-DETR, InstructBlip et LLaVa-NeXT-Video. Gemma 2, développé par l’équipe de Google, se distingue par ses performances exceptionnelles grâce à ses 2 et 7 milliards de paramètres. RT-DETR, quant à lui, permet une détection d’objets en temps réel, profitant de l’architecture transformer pour plus de précision.
InstructBlip améliore les interactions entre le texte et les images, grâce à l’architecture BLIP-2, afin d’optimiser les tâches nécessitant une compréhension visuelle et textuelle. De son côté, LLaVa-NeXT-Video intègre des ensembles de données vidéo et image, facilitant ainsi l’analyse de contenu vidéo sans besoin d’entraînement préalable.
La version 4.42 améliore également le support des outils et la génération augmentée par récupération (RAG), avec la génération automatique de descriptions JSON pour les fonctions Python. Le support de fine-tuning GGUF permet d’optimiser et de déployer des modèles dans des environnements divers. Les améliorations de quantisation réduisent la consommation de mémoire requise pour les modèles génératifs, rendant leur utilisation plus efficace.
De plus, la mise à jour inclut de nouveaux exemples de segmentation d’instances, des corrections de bugs et des optimisations, ainsi que la suppression de composants obsolètes. En somme, Transformers 4.42 confirme la position de Hugging Face en tête de file dans le domaine du NLP et du machine learning, grâce à ses avancées techniques et sa capacité à intégrer des fonctionnalités innovantes. Cette version permet ainsi de répondre aux besoins des chercheurs et des développeurs en matière d’intelligence artificielle et d’apprentissage automatique.