Lancement de DeepSeek-V2-0628 : Une Version Open-Source Améliorée de DeepSeek-V2

DeepSeek a récemment annoncé la sortie de son modèle open-source le plus récent sur Hugging Face, le DeepSeek-V2-Chat-0628. Ce lancement marque une avancée notable dans la génération de texte pilotée par l’IA et les capacités technologiques des chatbots, plaçant DeepSeek comme leader de l’industrie.

Cette nouvelle version, une évolution du DeepSeek-V2-Chat, a été affinée pour offrir des performances supérieures sur divers benchmarks. Selon le classement LMSYS Chatbot Arena, le DeepSeek-V2-Chat-0628 se classe à la 11e place, surpassant tous les autres modèles open-source, soulignant l’engagement de DeepSeek dans le domaine de l’IA conversationnelle.

Les améliorations notées incluent des hausses significatives dans les tests de performance :
* HumanEval : Passage de 81,1 à 84,8.
* MATH : De 53,9 à 71,0.
* BBH : De 79,7 à 83,4.
* IFEval : De 63,8 à 77,6.
* Arena-Hard : De 41,6 à 68,3.
* JSON Output : De 78 à 85.

Le modèle intègre aussi des capacités optimisées pour le suivi des instructions, améliorant l’expérience utilisateur pour des tâches comme la traduction immersive et la génération augmentée par la récupération.

Pour utiliser le DeepSeek-V2-Chat-0628, 80GB*8 GPUs sont nécessaires pour l’inférence en format BF16, et l’utilisation des Transformers de Huggingface est recommandée. Comparé aux versions précédentes, le modèle bénéficie d’un modèle de chat complet mis à jour, avec des configurations spécifiques garantissant des sorties plus précises.

Les utilisateurs peuvent intégrer ce modèle via vLLM, un processus simplifié permettant de fusionner une demande dans le code source de vLLM et configurer efficacement le modèle. Le modèle est disponible sous la Licence MIT pour le code, avec des licences spécifiques pour le modèle lui-même, permettant son usage commercial.

En conclusion, DeepSeek se distingue par son engagement en faveur de l’innovation en intelligence artificielle avec le lancement du DeepSeek-V2-Chat-0628, affichant des performances impressionnantes et une expérience utilisateur enrichie.

Lancement de DeepSeek-V2-0628 : Une Version Open-Source Améliorée de DeepSeek-V2

Articles

SolverLearner : Un Cadre IA Révolutionnaire pour Tester et Évaluer les Capacités de Raisonnement Inductif des Modèles de Langage

Jina AI dévoile ‘Late Chunking’ : Une méthode simple d’IA pour incorporer de courts fragments en exploitant les modèles d’incrustation de long contexte

Révélation des Stratégies de Jeu Supérieures : Une Étude sur l’IA Présente GRATR, une Approche Révolutionnaire pour la Fiabilité Raisonnée