En bref

  • DeepSeek a publié le 24 avril la preview de V4-Pro (1,6 trillion de paramètres) et V4-Flash, avec une fenêtre de contexte d'1 million de tokens.
  • Tous les développeurs et entreprises utilisant l'API DeepSeek bénéficient désormais de tarifs cassant la concurrence : 0,14 $ par million de tokens en entrée pour la version Flash.
  • Les deux modèles restent open source, et concurrencent directement Claude Opus 4.7, GPT-5.5 et Gemini 3.1 Pro sur les benchmarks de raisonnement.

Ce qui s'est passé

La start-up chinoise DeepSeek a dévoilé jeudi 24 avril 2026 la preview de sa nouvelle gamme V4, déjà accessible via l'API officielle et publiée sous licence permissive sur Hugging Face. Le modèle haut de gamme, DeepSeek-V4-Pro, embarque une architecture Mixture-of-Experts de 1,6 trillion de paramètres dont 49 milliards activés à chaque requête, ce qui maintient le coût d'inférence à un niveau raisonnable malgré la taille brute du modèle. Sa déclinaison plus légère, V4-Flash, totalise 284 milliards de paramètres pour 13 milliards activés, et vise les usages à fort débit où la latence prime sur le raisonnement profond. Les deux variantes acceptent une fenêtre de contexte d'un million de tokens et un maximum de 384 000 tokens en sortie, un saut significatif par rapport à V3.2 qui plafonnait à 128 000 tokens. La preview est disponible immédiatement pour tous les comptes développeurs sans liste d'attente.

Sur le plan tarifaire, la grille publiée sur l'API officielle bouleverse l'écosystème. La version Flash est facturée 0,14 $ par million de tokens en entrée et 0,28 $ en sortie ; la version Pro affiche 0,145 $ en entrée et 3,48 $ en sortie. Selon les comparatifs publiés par DeepSeek, ces prix passent sous Gemini 3.1 Flash, GPT-5.4 Mini, Claude Haiku 4.5, mais aussi sous Claude Opus 4.7 et GPT-5.5 pour la gamme Pro. Les poids sont diffusés sous licence permissive sur Hugging Face, ce qui permet un déploiement on-premise complet sans dépendance à l'API hébergée.

Selon la documentation publiée par l'équipe, V4 introduit une nouvelle architecture de gestion du contexte long, capable de traiter des prompts massifs sans dégradation linéaire de la qualité. Sur les benchmarks de raisonnement, DeepSeek revendique avoir « presque comblé l'écart » avec les modèles frontière fermés, en particulier sur les épreuves mathématiques et le code.

Pourquoi c'est important

Trois éléments rendent cette annonce stratégique. D'abord, la disponibilité d'un modèle open source de classe frontière à moins d'un dollar par million de tokens redistribue les cartes pour les équipes qui industrialisent des agents IA. Ensuite, la maturité de la méthode MoE chinoise prouve que l'écart de capacité avec les laboratoires américains se referme malgré les restrictions à l'export sur les puces avancées. Enfin, l'arrivée d'un million de tokens de contexte ouvre des cas d'usage — analyse de bases de code complètes, traitement de documents juridiques ou médicaux longs, agents persistants — jusque-là réservés à Gemini et à GPT-5.5.

Pour les DSI et CISO européens, la disponibilité d'un modèle aussi performant en open source soulève cependant des questions de souveraineté et de compliance, en particulier sur le pipeline d'entraînement et la traçabilité des données. La problématique rappelle celle posée par la consolidation Cohere-Aleph Alpha autour de l'IA souveraine européenne. Plusieurs analystes recommandent de passer par un déploiement on-premise des poids plutôt que par l'API hébergée en Chine, et de surveiller les usages internes via un proxy de contrôle.

Ce qu'il faut retenir

  • DeepSeek V4-Pro et V4-Flash sont disponibles en preview depuis le 24 avril, avec 1 million de tokens de contexte.
  • Les tarifs API cassent la concurrence et placent V4-Flash au prix d'un Haiku 4.5.
  • Pour un usage souverain, privilégier le déploiement on-premise des poids open source plutôt que l'API hébergée.

DeepSeek V4 est-il vraiment au niveau de GPT-5.5 ou Claude Opus 4.7 ?

Sur les benchmarks de raisonnement publiés par DeepSeek, V4-Pro se rapproche très près des modèles frontière fermés sans toutefois les dépasser systématiquement. Sur le code, la génération multimodale et l'usage d'outils, GPT-5.5 et Opus 4.7 conservent une avance, en particulier sur les tâches agentiques longues. V4 reste néanmoins le meilleur rapport capacité/prix du marché, et son ouverture en open source en fait un candidat sérieux pour les déploiements on-premise.

Comment sécuriser l'usage de DeepSeek V4 en entreprise ?

Trois leviers : déployer les poids on-premise plutôt que l'API hébergée pour éviter toute exfiltration de prompts ; inscrire le modèle dans un registre IA conforme au AI Act, avec évaluation de risque documentée ; et placer un proxy de contrôle entre les utilisateurs internes et le modèle pour journaliser les requêtes sensibles et appliquer une politique de DLP.

Besoin d'un accompagnement expert ?

Ayi NEDJIMI vous accompagne sur vos projets cybersécurité et IA.

Prendre contact