En bref

  • DeepSeek a publié ce 24 avril les preview V4 Pro et V4 Flash, deux modèles Mixture-of-Experts ouverts avec fenêtre de contexte d'un million de tokens.
  • V4 Pro embarque 1,6 T de paramètres (49 Md actifs), V4 Flash 284 Md (13 Md actifs), tous deux disponibles immédiatement sur Hugging Face et via l'API DeepSeek.
  • Les benchmarks publiés placent V4 Pro au niveau de GPT-5.4 et Claude Opus 4.6 en raisonnement et coding, pour une fraction du prix — une nouvelle salve dans la guerre des modèles ouverts.

Ce qui s'est passé

Le laboratoire chinois DeepSeek a dévoilé ce 24 avril 2026 les preview de ses nouveaux modèles phares V4 Pro et V4 Flash, présentés comme la plateforme open-source la plus puissante actuellement disponible. Les deux modèles partagent une fenêtre de contexte d'un million de tokens et une sortie maximale de 384 000 tokens, capables d'ingérer un codebase complet ou une documentation entière en un seul prompt. Les poids sont publiés sur Hugging Face sous licence permissive, et l'API DeepSeek bascule sans rupture : changer le paramètre de modèle suffit, l'URL de base reste identique.

V4 Pro pèse 1,6 téraparamètre en architecture MoE, avec 49 milliards de paramètres activés par token. V4 Flash tourne à 284 milliards de paramètres dont 13 milliards actifs, positionné comme l'option économique à latence basse. Les deux supportent les modes thinking et non-thinking, la sortie JSON, le tool calling et le chat prefix completion en bêta. Côté benchmarks publiés par DeepSeek, V4 Pro dépasse Claude Sonnet 4.5 sur les tâches agentiques et rivalise avec les modèles propriétaires sur SWE-Bench et Aider.

L'innovation centrale tient dans l'architecture d'attention hybride qui combine Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA). Sur un contexte d'un million de tokens, DeepSeek annonce seulement 27 % des FLOPs d'inférence par token et 10 % du cache KV par rapport à la génération V3.2, un gain d'efficience qui rend le long contexte économiquement viable en production.

Pourquoi c'est important

La sortie simultanée de deux modèles MoE à contexte 1 M sous licence ouverte rebat les cartes pour les équipes qui construisent des agents ou traitent de gros volumes documentaires. Le coût par token des modèles fermés équivalents reste plusieurs fois supérieur, et l'auto-hébergement devient crédible pour les entreprises soumises à des contraintes de souveraineté ou de conformité. Dans un marché où Anthropic verrouille des gigawatts de TPU pour tenir la cadence d'inférence, la stratégie DeepSeek — optimiser l'architecture plutôt que multiplier le silicium — confirme que le rapport qualité/prix reste un levier majeur.

Le timing n'est pas anodin. Un an après la sortie V3 qui avait secoué la Silicon Valley, DeepSeek relance la pression sur OpenAI et Anthropic pile au moment où ces derniers industrialisent leurs offres entreprise. Pour les équipes sécurité, la banalisation du contexte 1 M pose des questions concrètes : exfiltration de code par prompt unique, empoisonnement par documents injectés, traçabilité des requêtes, gouvernance des accès API. Les DSI qui évaluent des plateformes d'agents d'entreprise devront intégrer l'option open-source dans leurs grilles de comparaison.

Ce qu'il faut retenir

  • V4 Pro (1,6 T / 49 B actifs) et V4 Flash (284 B / 13 B actifs) avec contexte 1 M tokens, disponibles immédiatement sous licence ouverte sur Hugging Face.
  • Architecture d'attention hybride CSA + HCA qui réduit les FLOPs d'inférence de 73 % et le cache KV de 90 % sur contexte long par rapport à V3.2.
  • Les équipes cloud et sécurité doivent évaluer l'option d'auto-hébergement pour les usages soumis à contraintes de souveraineté, en tenant compte des risques propres au contexte long.

Quelle différence pratique entre V4 Pro et V4 Flash ?

V4 Pro cible les tâches agentiques complexes, le raisonnement long et le code à forte exigence ; V4 Flash vise les workloads à volume, la latence basse et les agents à coût contrôlé. Les deux partagent le contexte 1 M et l'API, le choix se joue sur le ratio qualité/prix selon la charge.

Besoin d'un accompagnement expert ?

Ayi NEDJIMI vous accompagne sur vos projets cybersécurité et IA.

Prendre contact