DeepSeek V4 Pro et Flash : 1M tokens en open-source

24 April 2026

•

Mis à jour le 24 April 2026

•

4 min de lecture

•

674 mots

•

13 vues

DeepSeek publie V4 Pro (1,6 T) et V4 Flash (284 Md) en open-source avec contexte d'un million de tokens, performances GPT-5.4 à prix cassé.

En bref

DeepSeek a publié ce 24 avril les preview V4 Pro et V4 Flash, deux modèles Mixture-of-Experts ouverts avec fenêtre de contexte d'un million de tokens.
V4 Pro embarque 1,6 T de paramètres (49 Md actifs), V4 Flash 284 Md (13 Md actifs), tous deux disponibles immédiatement sur Hugging Face et via l'API DeepSeek.
Les benchmarks publiés placent V4 Pro au niveau de GPT-5.4 et Claude Opus 4.6 en raisonnement et coding, pour une fraction du prix — une nouvelle salve dans la guerre des modèles ouverts.

Ce qui s'est passé

Le laboratoire chinois DeepSeek a dévoilé ce 24 avril 2026 les preview de ses nouveaux modèles phares V4 Pro et V4 Flash, présentés comme la plateforme open-source la plus puissante actuellement disponible. Les deux modèles partagent une fenêtre de contexte d'un million de tokens et une sortie maximale de 384 000 tokens, capables d'ingérer un codebase complet ou une documentation entière en un seul prompt. Les poids sont publiés sur Hugging Face sous licence permissive, et l'API DeepSeek bascule sans rupture : changer le paramètre de modèle suffit, l'URL de base reste identique.

V4 Pro pèse 1,6 téraparamètre en architecture MoE, avec 49 milliards de paramètres activés par token. V4 Flash tourne à 284 milliards de paramètres dont 13 milliards actifs, positionné comme l'option économique à latence basse. Les deux supportent les modes thinking et non-thinking, la sortie JSON, le tool calling et le chat prefix completion en bêta. Côté benchmarks publiés par DeepSeek, V4 Pro dépasse Claude Sonnet 4.5 sur les tâches agentiques et rivalise avec les modèles propriétaires sur SWE-Bench et Aider.

L'innovation centrale tient dans l'architecture d'attention hybride qui combine Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA). Sur un contexte d'un million de tokens, DeepSeek annonce seulement 27 % des FLOPs d'inférence par token et 10 % du cache KV par rapport à la génération V3.2, un gain d'efficience qui rend le long contexte économiquement viable en production.

Pourquoi c'est important

La sortie simultanée de deux modèles MoE à contexte 1 M sous licence ouverte rebat les cartes pour les équipes qui construisent des agents ou traitent de gros volumes documentaires. Le coût par token des modèles fermés équivalents reste plusieurs fois supérieur, et l'auto-hébergement devient crédible pour les entreprises soumises à des contraintes de souveraineté ou de conformité. Dans un marché où Anthropic verrouille des gigawatts de TPU pour tenir la cadence d'inférence, la stratégie DeepSeek — optimiser l'architecture plutôt que multiplier le silicium — confirme que le rapport qualité/prix reste un levier majeur.

Le timing n'est pas anodin. Un an après la sortie V3 qui avait secoué la Silicon Valley, DeepSeek relance la pression sur OpenAI et Anthropic pile au moment où ces derniers industrialisent leurs offres entreprise. Pour les équipes sécurité, la banalisation du contexte 1 M pose des questions concrètes : exfiltration de code par prompt unique, empoisonnement par documents injectés, traçabilité des requêtes, gouvernance des accès API. Les DSI qui évaluent des plateformes d'agents d'entreprise devront intégrer l'option open-source dans leurs grilles de comparaison.

Ce qu'il faut retenir

V4 Pro (1,6 T / 49 B actifs) et V4 Flash (284 B / 13 B actifs) avec contexte 1 M tokens, disponibles immédiatement sous licence ouverte sur Hugging Face.
Architecture d'attention hybride CSA + HCA qui réduit les FLOPs d'inférence de 73 % et le cache KV de 90 % sur contexte long par rapport à V3.2.
Les équipes cloud et sécurité doivent évaluer l'option d'auto-hébergement pour les usages soumis à contraintes de souveraineté, en tenant compte des risques propres au contexte long.

Quelle différence pratique entre V4 Pro et V4 Flash ?

V4 Pro cible les tâches agentiques complexes, le raisonnement long et le code à forte exigence ; V4 Flash vise les workloads à volume, la latence basse et les agents à coût contrôlé. Les deux partagent le contexte 1 M et l'API, le choix se joue sur le ratio qualité/prix selon la charge.

Besoin d'un accompagnement expert ?

Ayi NEDJIMI vous accompagne sur vos projets cybersécurité et IA.

Prendre contact

Partager cet article

Twitter LinkedIn

À propos de l'auteur

Ayi NEDJIMI

Auditeur Senior Cybersécurité & Consultant IA

Expert Judiciaire — Cour d'Appel de Paris
Habilitation Confidentiel Défense

ayi@ayinedjimi-consultants.fr

25+

ans d'expérience

700+

articles publiés

100+

missions réalisées

Ayi NEDJIMI est un vétéran de la cybersécurité avec plus de 25 ans d'expérience sur des missions critiques. Ancien développeur Microsoft à Redmond sur le module GINA (Windows NT4) et co-auteur de la version française du guide de sécurité Windows NT4 pour la NSA.

À la tête d'Ayi NEDJIMI Consultants, il réalise des audits Lead Auditor ISO 42001 et ISO 27001, des pentests d'infrastructures critiques, du forensics et des missions de conformité NIS2 / AI Act.

Conférencier international (Europe & US), il a formé plus de 10 000 professionnels.

Domaines d'expertise

ISO 42001 Lead Auditor ISO 27001 · NIS2 Pentest & Forensics IA / LLM / RAG Cloud & Active Directory

Voir le profil complet Demander un devis

Ressources & Outils de l'auteur

GitHub

Code & projets open source

Hugging Face

Modèles IA & datasets

CertifExpress

Préparez vos certifications IT

WindowsBooster

Optimisation Windows 11

Commentaires

Aucun commentaire pour le moment. Soyez le premier à commenter !

Laisser un commentaire