DeepSeek dévoile V4-Pro (1,6 Tn paramètres) et V4-Flash en preview. 1 M de tokens de contexte, open source, et des tarifs API qui passent sous Claude Haiku.
En bref
- DeepSeek a publié le 24 avril la preview de V4-Pro (1,6 trillion de paramètres) et V4-Flash, avec une fenêtre de contexte d'1 million de tokens.
- Tous les développeurs et entreprises utilisant l'API DeepSeek bénéficient désormais de tarifs cassant la concurrence : 0,14 $ par million de tokens en entrée pour la version Flash.
- Les deux modèles restent open source, et concurrencent directement Claude Opus 4.7, GPT-5.5 et Gemini 3.1 Pro sur les benchmarks de raisonnement.
Ce qui s'est passé
La start-up chinoise DeepSeek a dévoilé jeudi 24 avril 2026 la preview de sa nouvelle gamme V4, déjà accessible via l'API officielle et publiée sous licence permissive sur Hugging Face. Le modèle haut de gamme, DeepSeek-V4-Pro, embarque une architecture Mixture-of-Experts de 1,6 trillion de paramètres dont 49 milliards activés à chaque requête, ce qui maintient le coût d'inférence à un niveau raisonnable malgré la taille brute du modèle. Sa déclinaison plus légère, V4-Flash, totalise 284 milliards de paramètres pour 13 milliards activés, et vise les usages à fort débit où la latence prime sur le raisonnement profond. Les deux variantes acceptent une fenêtre de contexte d'un million de tokens et un maximum de 384 000 tokens en sortie, un saut significatif par rapport à V3.2 qui plafonnait à 128 000 tokens. La preview est disponible immédiatement pour tous les comptes développeurs sans liste d'attente.
Sur le plan tarifaire, la grille publiée sur l'API officielle bouleverse l'écosystème. La version Flash est facturée 0,14 $ par million de tokens en entrée et 0,28 $ en sortie ; la version Pro affiche 0,145 $ en entrée et 3,48 $ en sortie. Selon les comparatifs publiés par DeepSeek, ces prix passent sous Gemini 3.1 Flash, GPT-5.4 Mini, Claude Haiku 4.5, mais aussi sous Claude Opus 4.7 et GPT-5.5 pour la gamme Pro. Les poids sont diffusés sous licence permissive sur Hugging Face, ce qui permet un déploiement on-premise complet sans dépendance à l'API hébergée.
Selon la documentation publiée par l'équipe, V4 introduit une nouvelle architecture de gestion du contexte long, capable de traiter des prompts massifs sans dégradation linéaire de la qualité. Sur les benchmarks de raisonnement, DeepSeek revendique avoir « presque comblé l'écart » avec les modèles frontière fermés, en particulier sur les épreuves mathématiques et le code.
Pourquoi c'est important
Trois éléments rendent cette annonce stratégique. D'abord, la disponibilité d'un modèle open source de classe frontière à moins d'un dollar par million de tokens redistribue les cartes pour les équipes qui industrialisent des agents IA. Ensuite, la maturité de la méthode MoE chinoise prouve que l'écart de capacité avec les laboratoires américains se referme malgré les restrictions à l'export sur les puces avancées. Enfin, l'arrivée d'un million de tokens de contexte ouvre des cas d'usage — analyse de bases de code complètes, traitement de documents juridiques ou médicaux longs, agents persistants — jusque-là réservés à Gemini et à GPT-5.5.
Pour les DSI et CISO européens, la disponibilité d'un modèle aussi performant en open source soulève cependant des questions de souveraineté et de compliance, en particulier sur le pipeline d'entraînement et la traçabilité des données. La problématique rappelle celle posée par la consolidation Cohere-Aleph Alpha autour de l'IA souveraine européenne. Plusieurs analystes recommandent de passer par un déploiement on-premise des poids plutôt que par l'API hébergée en Chine, et de surveiller les usages internes via un proxy de contrôle.
Ce qu'il faut retenir
- DeepSeek V4-Pro et V4-Flash sont disponibles en preview depuis le 24 avril, avec 1 million de tokens de contexte.
- Les tarifs API cassent la concurrence et placent V4-Flash au prix d'un Haiku 4.5.
- Pour un usage souverain, privilégier le déploiement on-premise des poids open source plutôt que l'API hébergée.
DeepSeek V4 est-il vraiment au niveau de GPT-5.5 ou Claude Opus 4.7 ?
Sur les benchmarks de raisonnement publiés par DeepSeek, V4-Pro se rapproche très près des modèles frontière fermés sans toutefois les dépasser systématiquement. Sur le code, la génération multimodale et l'usage d'outils, GPT-5.5 et Opus 4.7 conservent une avance, en particulier sur les tâches agentiques longues. V4 reste néanmoins le meilleur rapport capacité/prix du marché, et son ouverture en open source en fait un candidat sérieux pour les déploiements on-premise.
Comment sécuriser l'usage de DeepSeek V4 en entreprise ?
Trois leviers : déployer les poids on-premise plutôt que l'API hébergée pour éviter toute exfiltration de prompts ; inscrire le modèle dans un registre IA conforme au AI Act, avec évaluation de risque documentée ; et placer un proxy de contrôle entre les utilisateurs internes et le modèle pour journaliser les requêtes sensibles et appliquer une politique de DLP.
Besoin d'un accompagnement expert ?
Ayi NEDJIMI vous accompagne sur vos projets cybersécurité et IA.
Prendre contactÀ propos de l'auteur
Ayi NEDJIMI
Auditeur Senior Cybersécurité & Consultant IA
Expert Judiciaire — Cour d'Appel de Paris
Habilitation Confidentiel Défense
ayi@ayinedjimi-consultants.fr
Ayi NEDJIMI est un vétéran de la cybersécurité avec plus de 25 ans d'expérience sur des missions critiques. Ancien développeur Microsoft à Redmond sur le module GINA (Windows NT4) et co-auteur de la version française du guide de sécurité Windows NT4 pour la NSA.
À la tête d'Ayi NEDJIMI Consultants, il réalise des audits Lead Auditor ISO 42001 et ISO 27001, des pentests d'infrastructures critiques, du forensics et des missions de conformité NIS2 / AI Act.
Conférencier international (Europe & US), il a formé plus de 10 000 professionnels.
Domaines d'expertise
Ressources & Outils de l'auteur
Articles connexes
CVE-2026-32202 : Windows Shell, exploitation active confirmée
Microsoft confirme l'exploitation active de CVE-2026-32202 dans Windows Shell : LNK auto-parsé déclenche une coercition NTLM zero-click. Patch urgent.
Totolink A8000RU CVE-2026-7156 : RCE pré-auth, exploit public
CVE-2026-7156 (CVSS 9.8) ouvre une RCE pré-auth sur les routeurs Totolink A8000RU via le CGI cstecgi. Exploit public, aucun patch constructeur.
CVE-2026-40976 : Spring Boot expose Actuator sans auth (9.1)
CVE-2026-40976 expose les endpoints Actuator de Spring Boot 4.0 sans authentification (CVSS 9.1). Patch dans 4.0.6, mise à jour urgente.
Commentaires
Aucun commentaire pour le moment. Soyez le premier à commenter !
Laisser un commentaire