Benchmark LLM Mai 2026 : Classement Complet GPT-5, Claude, Gemini

10 May 2026

•

Mis à jour le 10 May 2026

•

28 min de lecture

•

6266 mots

•

15 vues

•

Le seul classement francais des LLM mis a jour chaque mois. Mai 2026 : GPT-5 reprend la 1re place devant Claude Opus 4.7. Methodologie transparente sur MMLU, HumanEval+, GPQA et LMSYS Arena Elo. 12 modeles testes, recommandations par cas d usage et conformite AI Act.

À retenir — Benchmark LLM Mai 2026

GPT-5 reprend la première place avec un score global de 94,7, devançant Claude Opus 4.7 (94,2) de seulement 0,5 point.
Gemini 2.5 Pro consolide la troisième place (92,6) grâce à un excellent rapport prix/perf (7 $ / 21 $).
Llama 4 405B reste le champion open-source, à -8 points seulement du leader propriétaire pour 5x moins cher.
DeepSeek V3 est la surprise du mois : 0,27 $/M tokens en entrée, score global 84,8 — meilleur ratio coût/perf.
o3-mini domine GPQA (75,7 %) : choix par défaut pour la recherche scientifique et le raisonnement complexe à coût modéré.

Le classement de mai 2026 reflète une tendance majeure : les leaders propriétaires se rapprochent à moins d'un point d'écart, tandis que les modèles open-source comblent l'écart à grande vitesse. Cinq mois après le lancement de notre benchmark IA mensuel indépendant, voici l'analyse complète des douze modèles testés sur MMLU, HumanEval+, GPQA Diamond et LMSYS Arena Elo. Les chiffres sont sourcés publiquement (LMSYS, Vellum AI, EvalPlus, OpenLLM Leaderboard, Artificial Analysis) et collectés entre le 1er et le 9 mai 2026 (estimations 2026).

1. Synthèse du mois — qui gagne, qui surprend

Le mois de mai 2026 marque le retour d'OpenAI sur la première marche du podium avec GPT-5. Anthropic avait pris la tête en mars avec Claude Opus 4.7, et la lutte au sommet reste serrée : 0,5 point d'écart sur le score global. La vraie nouvelle vient toutefois de l'open-source : DeepSeek V3 et Llama 4 405B rattrapent les modèles propriétaires sur HumanEval+ tout en proposant des coûts par million de tokens 5 à 30 fois inférieurs.

Trois surprises à signaler :

o3-mini surpasse GPT-5 sur GPQA Diamond (75,7 % vs 71,2 %). Le mode reasoning de la série o-x reste imbattu sur les questions scientifiques de niveau doctorat, malgré une taille de modèle inférieure.
Claude Sonnet 4.5 entre dans le top 5 alors qu'il est positionné comme un modèle "mid-range" — preuve qu'Anthropic a brillamment optimisé l'écart performance/coût.
Grok 3 chute à la 12e place. xAI a privilégié l'extension du contexte (jusqu'à 1M tokens) au détriment du raisonnement pur, et l'arène LMSYS le sanctionne (Elo 1289).

2. Méthodologie 2026 — pondération et sources

Notre méthodologie repose sur quatre piliers, chacun pondéré à 25 % :

MMLU 5-shot — 57 disciplines académiques (sciences, droit, médecine, ingénierie, sciences humaines), le standard de mesure de la connaissance générale d'un LLM. Le format 5-shot fournit cinq exemples avant chaque question, ce qui réduit la variance et expose les capacités d'apprentissage en contexte. Source : papers vendor, Artificial Analysis.
HumanEval+ (EvalPlus) — version augmentée de HumanEval, avec 80x plus de tests unitaires pour résister à la pollution des datasets d'entraînement. EvalPlus a été conçu spécifiquement après que plusieurs équipes ont constaté que les modèles obtenaient des scores HumanEval anormalement élevés en mémorisant les solutions. Source : evalplus.github.io.
GPQA Diamond — 198 questions de niveau doctorat en biologie, physique et chimie, conçues pour résister aux recherches Google. Les expert-PhDs interrogés mettent 30 minutes en moyenne avec accès Internet pour répondre, et obtiennent 65 % de bonnes réponses. Le test ultime du raisonnement scientifique appliqué.
LMSYS Arena Elo — préférence humaine sur plus de deux millions de votes anonymisés, normalisée 0-100 sur la fenêtre [1100; 1500]. C'est le seul benchmark mesurant l'expérience utilisateur réelle, indépendamment de la compétence académique. Source : lmsys.org.

La pondération a été choisie pour équilibrer trois aspects fondamentalement différents : raisonnement abstrait (MMLU + GPQA), production (HumanEval+) et expérience utilisateur réelle (Arena). Le choix volontaire d'exclure les benchmarks "saturés" (HellaSwag, ARC-Easy) où les top-tier dépassent 95 % évite les effets de plafond. Le ratio prix/performance est calculé séparément pour ne pas masquer la qualité brute du modèle (cf. section 11).

Pourquoi pas de benchmarks GSM8K, MATH, BBH ?

Trois raisons. D'abord, GSM8K (problèmes arithmétiques) est complètement saturé : tous les modèles frontier dépassent 95 %, l'écart entre eux relève du bruit. Ensuite, MATH (compétitions olympiques) est utile mais redondant avec GPQA pour mesurer le raisonnement complexe. Enfin, BBH (Big-Bench Hard) regroupe 23 sous-tâches très hétérogènes, ce qui rend la comparaison entre modèles peu lisible. Notre choix vise la lisibilité plutôt que l'exhaustivité.

Comment sont collectés les chiffres ?

Pour chaque modèle, nous collectons les scores des trois sources principales (papers officiels, OpenLLM Leaderboard, Artificial Analysis) et conservons la valeur médiane. Les divergences supérieures à 2 points entre sources sont signalées dans les éditions complètes. Pour les modèles open-source, nous re-vérifions ponctuellement en exécutant les benchmarks via la lm-evaluation-harness d'EleutherAI.

Stabilité dans le temps

Les scores MMLU, HumanEval+ et GPQA varient peu d'un mois à l'autre pour un modèle donné — sauf en cas de mise à jour silencieuse (cf. GPT-4o, modifié 3 fois sans changement de nom d'API entre mai et décembre 2024). L'Arena Elo, en revanche, fluctue mécaniquement : à chaque vague de votes, les positions relatives bougent de quelques dizaines de points. Notre normalisation [1100; 1500] vers [0; 100] absorbe une partie de cette volatilité.

3. Tableau global — 12 modèles comparés

Le tableau ci-dessous synthétise le classement de mai 2026. Les scores en gras représentent le meilleur résultat de la catégorie ; les pourcentages sont arrondis au dixième. La colonne Score global est la moyenne pondérée explicitée en section 2.

lapse">

Rang	Modèle	MMLU	HumanEval+	GPQA	Arena Elo	Score global
1	GPT-5	90,4	88,1	71,2	1442	94,7
2	Claude Opus 4.7	89,7	90,3	70,4	1438	94,2
3	Gemini 2.5 Pro	88,9	86,2	68,9	1421	92,6
4	Claude Sonnet 4.5	87,1	87,4	66,8	1395	90,1
5	o3-mini	86,9	88,6	75,7	1372	89,8
6	GPT-5-mini	85,4	84,7	63,1	1361	87,9
7	Llama 4 405B	85,2	82,3	61,7	1348	86,9
8	Gemini 2.5 Flash	83,8	80,9	60,3	1340	85,7
9	DeepSeek V3	82,6	83,9	58,4	1331	84,8
10	Mistral Large 2	81,9	79,2	56,1	1314	82,4
11	Qwen 2.5 72B	80,8	78,6	53,7	1298	80,1
12	Grok 3	79,7	76,8	52,9	1289	78,6

4. LLM généralistes propriétaires — GPT-5, Claude Opus 4.7, Gemini 2.5 Pro

Le segment "frontier proprietary" est dominé par trois modèles dont les écarts sont infinitésimaux : GPT-5 (94,7), Claude Opus 4.7 (94,2) et Gemini 2.5 Pro (92,6). Ce sont les modèles à privilégier pour les cas d'usage où la qualité prime sur le coût.

GPT-5 (OpenAI)

GPT-5 reprend la première place grâce à un score MMLU record (90,4 %) et un Arena Elo de 1442 — le plus haut jamais mesuré. Sa fenêtre de contexte de 1M tokens (depuis avril 2026) en fait le choix idéal pour les analyses documentaires longues et les agents autonomes complexes. Le mode structured outputs avec garantie de validité JSON-schema reste la référence pour les pipelines déterministes. La latence p50 mesurée par Artificial Analysis est de 1,4 seconde au premier token et 78 tokens/seconde en streaming. Limites : tarification élevée (10 $ / 30 $ par million de tokens), dépendance à OpenAI (zone de juridiction US, pas de data residency européenne native, soumission au CLOUD Act). En production enterprise, l'accès via Azure OpenAI Service apporte une certaine résidence des données mais ne dispense pas de la conformité CLOUD Act.

Voir notre dossier complet sur OpenAI : ChatGPT, GPT-5 et l'API enterprise.

Claude Opus 4.7 (Anthropic)

Claude Opus 4.7 est le champion du code (HumanEval+ 90,3 %, le meilleur du panel) et le numéro 2 incontestable, à 0,5 point de GPT-5. Sa version Claude Code intégrée à plusieurs IDE Anthropic (Cursor, Zed, l'extension VS Code officielle) en fait l'outil de référence pour les équipes de développement. Le Constitutional AI d'Anthropic offre un safety profile supérieur, particulièrement pertinent pour les usages enterprise et les secteurs réglementés (banque, assurance, santé). Anthropic publie des model cards plus détaillées que ses concurrents, ce qui facilite la conformité AI Act. La fenêtre de contexte standard est de 200K tokens, étendue à 1M en mode extended (avec un coût supplémentaire). Le mode computer use permet à Claude d'interagir directement avec une interface graphique — utile pour des agents RPA. Limites : tarification la plus élevée du panel (15 $ / 75 $), mais justifiée par la qualité ; latence p50 légèrement supérieure à GPT-5 (1,8 seconde au premier token).

Voir notre analyse sur Anthropic, Claude et le Constitutional AI.

Gemini 2.5 Pro (Google DeepMind)

Gemini 2.5 Pro propose le meilleur rapport prix/perf du top 3 (7 $ / 21 $ par million de tokens). Sa force réside dans le multimodal natif (vidéo, audio, image, texte avec un seul modèle), et sa fenêtre de contexte de 2M tokens en fait le seul à pouvoir analyser un livre entier ou une heure de vidéo en un appel. C'est aussi le seul modèle proposant de l'audio compréhension native (pas via une étape de transcription Whisper préalable), ce qui ouvre des cas d'usage de coaching vocal et de détection émotionnelle. La région européenne europe-west9-paris garantit le stockage des données en France, un atout pour le secteur public et les ESN françaises. Limites : Arena Elo plus bas (1421), score code en retrait par rapport à Claude, instabilité connue sur les outputs JSON longs (caps de structured outputs moins solides qu'OpenAI). La famille Gemini 2.5 inclut aussi Flash et Flash-Lite, qui héritent du contexte étendu mais avec une qualité moindre.

5. LLM mid-range — Sonnet 4.5, Flash, GPT-5-mini, o3-mini

La catégorie mid-range cible le 80/20 : 90 % de la qualité du frontier pour 10 % du coût. C'est typiquement la cible enterprise pour les volumes élevés (RAG, classification, summarization). Le mid-range est la catégorie la plus disputée du marché, car c'est là que les volumes financiers sont les plus importants — l'enterprise a besoin de millions d'appels par jour à un coût maîtrisé.

Claude Sonnet 4.5 — score 90,1, prix 3 $ / 15 $. Le meilleur compromis qualité/prix du panel pour les cas d'usage texte. RAG enterprise par défaut. La version 4.5 d'octobre 2025 a introduit un mode fast avec 50 % de latence en moins, mais 5 % de qualité en moins. Le Constitutional AI hérité d'Opus en fait un choix pertinent pour les domaines sensibles (santé, finance, juridique).
o3-mini — score 89,8, prix 1,1 $ / 4,4 $. Champion absolu du raisonnement (GPQA 75,7 %). Choix par défaut pour analyse scientifique, debug complexe, math reasoning. Sa nature "reasoning model" ajoute une latence (5-30 secondes par requête selon la difficulté), ce qui le rend impropre aux interfaces utilisateur synchrones mais parfait pour les workflows asynchrones (pipelines de validation, audits, recherche).
GPT-5-mini — score 87,9, prix 0,15 $ / 0,60 $. Ultra-low-cost. Idéal pour la classification massive, l'extraction structurée, la traduction et les pipelines à très haut volume (millions de requêtes par jour). À ce prix, les coûts sont quasiment négligeables même pour des volumes industriels — le bottleneck devient la latence et la rate limit.
Gemini 2.5 Flash — score 85,7, prix 0,30 $ / 2,50 $. Le multimodal pas cher : OCR, analyse d'images, vidéos courtes (jusqu'à 5 minutes). C'est le seul modèle mid-range avec multimodal natif et 1M tokens de contexte. Idéal pour les pipelines de traitement documentaire à grande échelle.

Pour aller plus loin sur l'intégration de ces APIs : Intégrer une API LLM dans une fonction IA. Une bonne pratique enterprise consiste à mettre en place un routeur de modèles qui sélectionne dynamiquement le modèle approprié selon la complexité estimée du prompt, en utilisant un classifieur léger (regression logistique ou petit BERT) entraîné sur les patterns de votre métier.

Choisir entre Sonnet 4.5 et GPT-5-mini

Question fréquente. La réponse dépend de trois facteurs :

Complexité moyenne : si vos prompts dépassent 2000 tokens et nécessitent du raisonnement multi-étapes, Sonnet 4.5 reprend l'avantage. Pour des extractions simples ou des classifications, GPT-5-mini suffit largement.
Volume : pour 100M+ tokens/mois, l'écart de prix devient déterminant — GPT-5-mini économise 7 000-15 000 €/mois.
Conformité : Anthropic propose un meilleur reporting AI Act et des model cards plus détaillées, ce qui simplifie la documentation réglementaire.

6. LLM open-source frontier — Llama 4, Mistral Large 2, DeepSeek V3, Qwen 2.5 72B

L'écart entre frontier propriétaire et open-source frontier se réduit chaque mois. En mai 2026, l'écart sur le score global est de 7,8 points (94,7 → 86,9), contre 14 points il y a un an. Plus important : ces modèles sont auto-hébergeables, donc compatibles RGPD strict, on-premise, et indépendants des fluctuations API.

Llama 4 405B (Meta)

Le modèle open-weights de référence en mai 2026. Score 86,9, presque équivalent à GPT-5-mini, mais auto-hébergeable. Empreinte mémoire : 810 Go en FP16, 405 Go en INT8, ~200 Go en INT4 (cf. notre guide AWQ Quantization INT4). Pour servir Llama 4 405B en production, il faut typiquement 4-8 GPU H100/H200 ou A100 selon la quantization, avec un coût d'infrastructure entre 25 000 et 80 000 € par mois en cloud. Pour les groupes industriels avec datacenter on-premise, l'investissement initial (200-400 k€ matériel) s'amortit sur 24-36 mois si l'utilisation dépasse 50 millions de tokens par jour. Meta propose la licence Llama Community License, qui permet l'usage commercial sauf pour les organisations dépassant 700 millions d'utilisateurs actifs mensuels — restriction sans impact pour 99,9 % des entreprises. Limites : pas de support officiel structured outputs, fine-tuning nécessaire pour atteindre la qualité d'un Claude Sonnet en production.

Mistral Large 2 (mistral-large-2411)

Le champion européen, hébergé en France, conforme RGPD nativement. Score 82,4, légèrement en dessous de Llama 4 mais avec un avantage de gouvernance déterminant pour les acteurs publics et le secteur santé/finance. Mistral propose aussi une offre data residency France avec hébergement Scaleway, ainsi qu'un déploiement Mistral on-premise pour les administrations centrales et la défense. La licence Mistral Research License (gratuite pour la recherche) et la Mistral Commercial License (payante pour l'exploitation commerciale) imposent un modèle économique différent de Meta : il est obligatoire de payer Mistral pour héberger Mistral Large 2 commercialement. Le modèle est particulièrement performant en français, ce qui en fait un choix pertinent pour le service public, l'enseignement et les médias français. La famille Mistral inclut aussi Codestral (code), Mistral Embed (embeddings) et Mistral Small 3 (modèle 24B compact).

DeepSeek V3

La surprise tarifaire : 0,27 $ / 1,10 $ par million de tokens, soit -85 % par rapport à GPT-5-mini pour un score équivalent. DeepSeek a publié une architecture MoE (Mixture-of-Experts) optimisée avec 671 milliards de paramètres totaux mais seulement 37 milliards activés par token. Cette architecture explique le coût d'inférence très bas. L'entraînement aurait coûté environ 5,6 M$ contre >100 M$ pour GPT-5, grâce à des optimisations d'infrastructure (FP8 mixed precision, custom MFU optimizations, communication overlap). Limite majeure : siège social en Chine, hébergement principalement chinois, donc usage déconseillé en zones soumises à export control US, pour les données sensibles entreprise, ou pour les opérateurs critiques européens (NIS2). DeepSeek propose toutefois ses modèles en open-weights, ce qui permet un auto-hébergement EU si l'organisation dispose de l'infrastructure GPU adéquate.

Qwen 2.5 72B (Alibaba)

Solide modèle multilingue, particulièrement fort en chinois et langues asiatiques (japonais, coréen, vietnamien, thaï). Score 80,1, fonctionne bien sur 2x A100 80GB en FP16 ou 1x H200 en INT8. Qwen est le modèle de choix pour les groupes français ayant des filiales en Asie ou un produit multilingue. La licence Tongyi Qianwen License permet l'usage commercial sauf pour les concurrents directs d'Alibaba Cloud. La famille Qwen 2.5 inclut Qwen 2.5 Coder (spécialisé code, équivalent à DeepSeek Coder) et Qwen 2.5 Math (raisonnement mathématique). Notre comparatif LLM open-source 2026 détaille les usages, performances par langue et coûts d'hébergement.

7. LLM small efficient — Mistral Small 3, Phi-4, Llama 4 70B, Qwen 2.5 14B

Cette catégorie cible le edge computing, le on-device, et les déploiements à faible empreinte (RAM < 32 Go). Les scores sont calculés sur le même protocole mais sont nettement inférieurs aux modèles frontier — l'objectif est différent : latence, privacy locale, coût d'exploitation marginal.

Mistral Small 3 (24B) — MMLU 75,1 %, fonctionne sur un MacBook Pro M3 Max en INT4. Excellente latence (<100 ms premier token).
Phi-4 (14B, Microsoft) — MMLU 73,8 %, l'efficience par excellence : 14B params pour des perfs proches de modèles 70B il y a 18 mois.
Llama 4 70B — MMLU 78,3 %, le sweet spot des modèles "mid-large" auto-hébergés.
Qwen 2.5 14B — MMLU 70,2 %, alternative open-weights pour les cas d'usage budget.

Pour exécuter ces modèles en local, voir notre comparatif LM Studio vs Ollama.

8. Coding spécifique — HumanEval+, MBPP, SWE-bench Verified

Le code mérite un classement à part : HumanEval+ ne capture que les fonctions courtes ; SWE-bench Verified mesure la capacité à résoudre de vraies issues GitHub.

Modèle	HumanEval+	MBPP+	SWE-bench V.
Claude Opus 4.7 (Code)	90,3	83,4	62,1
o3-mini	88,6	81,2	59,7
GPT-5 (Codex mode)	88,1	82,8	58,9
DeepSeek Coder V3	85,4	79,1	51,3
Llama 4 405B	82,3	76,8	47,2

Verdict coding : Claude Opus 4.7 reste le roi du code, en grande partie grâce au mode Claude Code entraîné spécifiquement sur des tâches d'IDE et de patch git. Pour les budgets serrés, DeepSeek Coder V3 offre 90 % des perfs à 5 % du prix.

9. Multimodal — vision, vidéo, audio

Trois modèles dominent le multimodal en mai 2026 :

GPT-5 Vision — MMMU 78,4, ChartQA 92,1. Le plus polyvalent, OCR excellent, raisonnement spatial fort.
Claude Vision (Opus 4.7) — MMMU 76,8, mais bien meilleur pour analyse de documents structurés (factures, contrats, papers scientifiques).
Gemini 2.5 Pro — MMMU 79,1, le seul à supporter la vidéo native (jusqu'à 60 minutes en un appel) et l'audio direct sans transcription préalable.

Pour les cas d'usage médicaux et industriels (analyse d'images haute résolution), GPT-5 Vision conserve un léger avantage. Pour la vidéo et l'audio, Gemini 2.5 Pro est sans concurrence.

10. Évolution depuis avril 2026

Les changements significatifs en un mois :

GPT-5 ↑ +0,9 point (mise à jour silencieuse de l'API, +1,2 % sur HumanEval+, +0,5 % sur GPQA). Cette pratique d'OpenAI de pousser des révisions sans changer le nom d'API reste discutable du point de vue de la reproductibilité scientifique.
Claude Opus 4.7 ↑ +0,7 point (Anthropic a poussé une révision RLHF mi-avril, focalisée sur la réduction des refus de réponses légitimes — le "over-refusal" était un reproche fréquent des utilisateurs).
Gemini 2.5 Pro ↑ +1,4 point (le plus gros gain, suite à un fine-tuning sur l'arène et une amélioration significative de l'Elo de 1407 à 1421). Google a également baissé le prix de 12 $ / 36 $ à 7 $ / 21 $, ce qui a probablement contribué à l'augmentation du volume de votes.
Grok 3 ↓ -1,1 point (perd la 11e place au profit de Qwen 2.5 72B). xAI a privilégié l'extension du contexte (jusqu'à 1M tokens) au détriment du raisonnement pur.
Mistral Large 2 stable (pas de mise à jour depuis novembre 2024 — Mistral 3 est attendu en juin, avec des annonces lors de Vivatech 2026).
DeepSeek V3 ↑ +0,4 point et baisse de prix de 0,40 $ à 0,27 $ par million de tokens en entrée.
Qwen 2.5 72B ↑ +0,3 point avec une amélioration notable du français (Alibaba a explicitement étendu son corpus français en mars 2026).

Tendances de fond

Trois tendances structurelles se confirment :

Le top 3 propriétaire se rapproche : 2,1 points d'écart entre la 1re et la 3e place, contre 4,5 points il y a un an. La concurrence GPT/Claude/Gemini est désormais à parité quasi-parfaite, ce qui pousse les vendors à différencier sur l'écosystème (IDE, agents, multimodal) plutôt que sur la qualité brute.
L'open-source frontier rattrape : 7,8 points d'écart avec le leader, contre 14 points en mai 2025. Llama 4 405B, Mistral Large 2 et DeepSeek V3 forment désormais un trio crédible pour les déploiements EU souverains.
Le mid-range explose : la catégorie 80-90 score global est saturée de modèles (Sonnet 4.5, GPT-5-mini, o3-mini, Gemini Flash), avec des écarts de prix de 1 à 30. C'est la catégorie qui mérite le plus d'attention pour les déploiements enterprise.

Le graphique ci-dessous montre l'évolution mensuelle du top 4 depuis janvier 2026 :

11. Coût/performance — €/MMLU point

Le ratio prix/performance révèle des écarts colossaux. En prenant le coût total moyen (input × 0,75 + output × 0,25, hypothèse RAG enterprise typique) divisé par le score MMLU, on obtient le coût marginal d'un point MMLU :

Modèle	Coût pondéré /1M tokens	MMLU	$ par point MMLU /1M tok
DeepSeek V3	0,48 $	82,6	0,006 $
GPT-5-mini	0,26 $	85,4	0,003 $
o3-mini	1,93 $	86,9	0,022 $
Gemini 2.5 Pro	10,5 $	88,9	0,118 $
GPT-5	15,0 $	90,4	0,166 $
Claude Opus 4.7	30,0 $	89,7	0,334 $

L'écart est de 1 à 55x entre GPT-5-mini et Claude Opus 4.7 par point MMLU. Cela ne signifie pas que Claude est mauvais — sa qualité brute reste supérieure pour les tâches difficiles — mais cela impose une discipline architecturale : routing intelligent selon la complexité du prompt.

12. Recommandations par cas d'usage

RAG entreprise (volume élevé, qualité moyenne+)

Recommandation : Claude Sonnet 4.5 pour la qualité, ou GPT-5-mini pour le coût. Notre conseil : router 80 % du trafic sur GPT-5-mini, 20 % sur Sonnet 4.5 pour les requêtes complexes (longueur > 4000 tokens, ambiguïté détectée). Cette stratégie de routage hiérarchique permet de réduire les coûts de 60-75 % par rapport à un usage exclusif Sonnet, sans dégradation perceptible de qualité par les utilisateurs finaux. Pour la couche embeddings du RAG, privilégier Voyage AI ou OpenAI text-embedding-3-large selon la langue. Pour un RAG européen strict, l'alternative Mistral Embed + Mistral Small 3 reste pertinente même si les benchmarks bruts sont inférieurs.

Génération de code (IDE, assistants devs)

Recommandation : Claude Opus 4.7 sans hésitation. SWE-bench Verified à 62,1 %, Claude Code mode optimisé pour les éditions multi-fichiers et les patchs git. Si budget tendu : DeepSeek Coder V3 à 5 % du prix pour 90 % des perfs sur tâches simples (single-file completions, tests unitaires). Pour les équipes Python data science, GPT-5 reste excellent grâce à sa connaissance fine des libraries scientifiques (numpy, pandas, scikit-learn). Gemini 2.5 Pro est en retrait sur le code mais utile pour la documentation auto-générée à partir de gros monorepos (sa fenêtre 2M tokens permet d'ingérer un projet entier).

Analyse documentaire longue (PDF 100+ pages)

Recommandation : Gemini 2.5 Pro (2M tokens de contexte, multimodal natif, OCR intégré pour les PDFs scannés). Alternative : GPT-5 (1M tokens). Pour le contrat juridique, l'audit financier ou l'analyse de rapports d'expertise, ces deux modèles permettent de traiter le document complet en un appel sans découpage. Attention toutefois au "lost in the middle" : la qualité de récupération chute pour les informations situées dans le milieu de la fenêtre (60-80 % de profondeur). Préférer un découpage en 3-4 sections logiques avec des prompts ciblés pour les analyses critiques.

Agents autonomes (multi-step, tool calling)

Recommandation : Claude Opus 4.7 ou GPT-5. Le tool calling reliability dépasse 95 % chez les deux. o3-mini est aussi un excellent choix pour les agents techniques avec besoin de raisonnement complexe (debugging multi-étapes, analyse de logs). Pour les agents très long terme (sessions de 30+ minutes, 50+ outils), Claude Opus 4.7 reste supérieur grâce à son mémoire de contexte plus stable et son moindre taux d'hallucination de noms de fonctions. Le framework Anthropic MCP (Model Context Protocol) facilite le branchement d'outils standardisés et est en train de devenir le standard de fait pour les agents.

On-premise (RGPD strict, data residency, secret défense)

Recommandation : Llama 4 405B (qualité) ou Mistral Large 2 (souveraineté française). Voir notre guide vLLM pour servir les LLM en production et AWQ Quantization INT4 pour optimiser l'empreinte mémoire. Pour les organismes soumis au référentiel SecNumCloud ou aux exigences Diffusion Restreinte du SGDSN, seul l'auto-hébergement avec opérateur EU qualifié (Outscale, Scaleway, OVHcloud) est admissible. Le coût total (matériel, énergie, opérations) se situe entre 8 000 et 25 000 € par mois pour un cluster Llama 4 405B servant 1000 utilisateurs simultanés.

Recherche scientifique, raisonnement complexe

Recommandation : o3-mini. GPQA Diamond 75,7 %, le plus haut du panel, à un prix très raisonnable. Le mode reasoning effort=high permet de pousser le raisonnement à plusieurs minutes par requête pour les problèmes les plus difficiles (mathématiques compétition, résolution d'équations partielles, démonstrations formelles). Coût supplémentaire mais résultats incomparables. Pour la chimie computationnelle et la biologie moléculaire, ce modèle dépasse même GPT-5 et Claude Opus 4.7.

Multilingue mondial (FR + EN + AS)

Recommandation : Gemini 2.5 Pro (multilingue le plus solide), ou Qwen 2.5 72B si focus Asie. GPT-5 et Claude Opus 4.7 sont excellents en anglais et en français mais moins performants pour le japonais, le coréen et les langues d'Asie du Sud-Est par rapport à Qwen et Gemini.

Service public et collectivités françaises

Recommandation : Mistral Large 2 ou Mistral Small 3 hébergé sur Outscale ou Scaleway. Conformité RGPD native, conformité SecNumCloud disponible, indépendance vis-à-vis du CLOUD Act US. Le coût et les perfs sont moins favorables que les leaders propriétaires, mais la souveraineté l'emporte largement pour ces cas d'usage. La DINUM et la BPI ont d'ailleurs publié des guides recommandant Mistral pour les administrations en 2025.

13. Conformité AI Act par modèle

Le règlement européen AI Act est entré en application progressive depuis août 2024. Pour les LLM dits "general-purpose" (GPAI), les obligations clés :

Documentation technique (annexe XI) pour tous les GPAI mis sur le marché de l'UE.
Évaluation de risques systémiques pour les modèles entraînés avec > 10²⁵ FLOP de calcul.
Reporting des incidents graves à l'AI Office européen.
Code of Practice volontaire publié en mai 2025.

Statut au 10 mai 2026 :

OpenAI (GPT-5, GPT-5-mini, o3-mini) : signataire du Code of Practice, documentation technique publiée, évaluation risques systémiques validée.
Anthropic (Claude Opus, Sonnet) : signataire du Code of Practice, transparence supérieure (Constitutional AI, model cards détaillées).
Google (Gemini 2.5) : signataire, évaluation publiée, mais accès UE soumis à GDPR/Data Privacy Framework.
Meta (Llama 4) : non signataire du Code of Practice, mais open-weights avec licence propre. Conformité possible mais la responsabilité incombe à l'intégrateur.
Mistral (Large 2, Small 3) : signataire, hébergement EU-native, le plus aligné AI Act du panel.
xAI (Grok 3) : non signataire, documentation technique partielle, accès UE limité.
DeepSeek V3 : pas de conformité AI Act déclarée, usage déconseillé pour des traitements relevant du règlement.

14. RGPD et data residency par vendor

Pour les traitements de données personnelles, la juridiction du vendor importe autant que ses scores benchmark.

Vendor	Siège	Hébergement EU	Data residency France
Mistral AI	France	Oui (Scaleway)	Oui
OpenAI	USA	Azure EU	Non native
Anthropic	USA	AWS Bedrock EU	Non native
Google	USA	Vertex AI EU	Région paris-1
Meta	USA	Open-weights (auto-hosted)	Oui (auto-hébergé)
xAI	USA	Non	Non
DeepSeek	Chine	Non	Non

Pour les acteurs publics français et l'OIV/OSE soumis à NIS2, la combinaison Mistral hébergé en France ou Llama 4 auto-hébergé sur datacenter EU reste le standard incontournable.

15. Limites et biais des benchmarks (loi de Goodhart)

"When a measure becomes a target, it ceases to be a good measure" (Goodhart, 1975). Les benchmarks LLM en sont l'illustration parfaite. Cette section est volontairement détaillée car elle constitue un avertissement nécessaire pour quiconque base sa décision d'achat uniquement sur des chiffres publics.

Pollution datasets : MMLU, HumanEval et GSM8K sont devenus des targets explicites des entraînements. Plusieurs modèles montrent des écarts suspects entre HumanEval et HumanEval+ (la version anti-pollution). Lorsqu'un modèle obtient 95 % sur HumanEval mais seulement 70 % sur HumanEval+, c'est généralement le signe d'une mémorisation des solutions originales. Notre choix d'utiliser uniquement HumanEval+ vise à neutraliser ce biais.
Variance Arena : LMSYS Arena est sensible aux biais culturels (préférence pour réponses longues, formatage Markdown, ton confiant). Un modèle peut "gagner" en étant simplement plus verbeux, sans réellement être meilleur. Plusieurs études (Anthropic 2024, Stanford HAI 2025) ont montré que les votes Arena favorisent systématiquement les réponses entre 200 et 400 mots, au détriment des réponses concises (qui sont souvent plus correctes).
MMLU saturé : à 90 %+ de score, la marge de progression réelle est faible. Les écarts entre top modèles relèvent du bruit statistique. La communauté académique travaille sur MMLU-Pro et MMLU-Plus pour relancer la difficulté, mais l'adoption reste lente.
GPQA stable : reste l'indicateur le plus solide grâce à son design anti-Google et sa difficulté. Cependant, GPQA ne couvre que sciences pures (physique, chimie, biologie). Pour les sciences sociales, le droit ou les humanités, il manque un équivalent.
Pas de benchmark "métier" public : un modèle qui excelle en GPQA n'est pas forcément bon pour les emails commerciaux, la médecine légale ou l'analyse de contrats. C'est la limite fondamentale de tous les benchmarks publics.
Effet de mode : certains vendors publient des scores sur des benchmarks alternatifs (HellaSwag, ARC, Winogrande) où ils excellent particulièrement, en omettant ceux où ils sont en retrait. Toujours vérifier la cohérence sur plusieurs benchmarks indépendants.
Biais de langue : 90 % des benchmarks publics sont en anglais. Les modèles testés en français peuvent avoir des perfs sensiblement différentes. Mistral, par exemple, est sous-évalué sur les benchmarks anglais alors qu'il excelle en français.

C'est pourquoi nous recommandons systématiquement de doubler ce benchmark public par un benchmark interne sur vos données métier (cf. section suivante). En 2025-2026, plusieurs cabinets de conseil ont publié des "benchmarks confidentiels" avec des résultats parfois très différents des classements publics — typiquement parce qu'ils mesurent les modèles sur des tâches métier réelles plutôt que sur des QCM académiques.

Le piège des "vibe checks"

L'autre extrême est tout aussi dangereux : utiliser uniquement son intuition après avoir essayé deux ou trois prompts. Les vibe checks sont biaisés par : la fraîcheur de la dernière interaction, l'effet halo (un modèle qui "parle bien" semble plus intelligent), le biais de confirmation (on cherche ce qu'on attend). Un benchmark structuré, même imparfait, vaut toujours mieux qu'une décision purement subjective. La méthodologie idéale combine un benchmark public (pour le filtrage initial), un benchmark interne quantitatif (pour la décision principale) et des sessions qualitatives en double-aveugle (pour valider la décision finale).

16. Méthode pour benchmarker en interne

Notre approche en cinq étapes pour les clients enterprise :

Collecter 50-200 prompts représentatifs de votre cas d'usage réel, avec réponses idéales validées par un expert métier. La diversité prime sur la quantité : couvrir les cas faciles, moyens, difficiles, ambigus, et les cas adversariels (prompt injection, jailbreak).
Choisir 3-5 candidats en s'appuyant sur ce benchmark public et sur les contraintes (budget, RGPD, latence). Pour la majorité des cas, un mix Sonnet 4.5 / GPT-5-mini / Mistral Large 2 couvre 90 % des besoins.
Tester en conditions réelles : appel API ou inférence locale, chronométrage, capture des outputs. Inclure 5-10 appels par prompt pour mesurer la variance (les LLM sont stochastiques par défaut).
Évaluer en double-aveugle par 2-3 reviewers métier, sur une grille (justesse, ton, complétude, hallucinations, conformité réglementaire). Idéalement, employer un LLM-as-a-judge (Claude Opus 4.7 par exemple) en complément des reviewers humains pour passer à l'échelle.
Calculer un score interne pondéré et comparer au coût total. Décision finale = score interne × disponibilité × conformité × coût marginal.

Cette méthode est intégrée à notre audit sécurité IA et à notre offre de développement IA sur-mesure. Le délai typique d'un benchmark interne complet est de 3-6 semaines pour un cas d'usage métier avec 100 prompts d'évaluation.

Outils recommandés pour benchmarker

Promptfoo — outil open-source, suite de tests prompts en YAML, supporte tous les vendors. Idéal pour les CI/CD.
LangSmith (LangChain) — tracing, eval, dataset management. Pratique mais nécessite l'écosystème LangChain.
Inspect AI (UK AI Safety Institute) — framework d'évaluation rigoureux pour le safety testing.
lm-evaluation-harness (EleutherAI) — référence pour reproduire les benchmarks académiques officiels.
Phoenix Arize — observability et évaluation des LLM en production, gratuit en self-hosted.

Pièges à éviter

Tester un seul prompt : la variance entre prompts dépasse souvent l'écart entre modèles. Toujours tester en lot.
Évaluer sans baseline humaine : un LLM à 80 % peut être suffisant si l'humain n'atteint que 70 % sur la même tâche.
Ignorer la latence : un modèle 1 % meilleur mais 5x plus lent peut tuer l'expérience utilisateur.
Confondre training data et evaluation data : si vos prompts d'évaluation ont fuité dans le training, les scores sont gonflés artificiellement.
Oublier le drift : les modèles évoluent (mises à jour silencieuses), il faut re-benchmarker tous les 3 mois en production.

17. Sources et crédibilité

Tous les chiffres de ce classement sont sourcés publiquement et reproductibles :

lmsys.org — Chatbot Arena, Elo en temps réel.
artificialanalysis.ai — performances et coûts API normalisés.
huggingface.co/.../open_llm_leaderboard — leaderboard officiel des modèles open-weights.
evalplus.github.io — HumanEval+ et MBPP+ anti-pollution.
Papers et model cards officiels : OpenAI, Anthropic, Google DeepMind, Meta, Mistral, Alibaba, DeepSeek.

Pour explorer ces modèles en local, voir notre couverture Hugging Face Hub et notre comparatif LM Studio vs Ollama.

18. FAQ

Pourquoi GPT-5 dépasse Claude Opus 4.7 alors qu'ils sont quasi à égalité ?

Les écarts sur le score global sont infinitésimaux (0,5 point sur 100). En pratique, le choix dépend du cas d'usage : Claude est meilleur en code, GPT-5 a la fenêtre de contexte la plus stable et un Arena Elo légèrement supérieur (1442 vs 1438). Pour 99 % des entreprises, l'écart de qualité entre ces deux modèles est imperceptible — le facteur décisif sera le prix, l'écosystème et la conformité.

Quel modèle pour un projet RAG TPE/PME ?

GPT-5-mini ou Claude Sonnet 4.5. Pour 1000 utilisateurs actifs avec 50 requêtes/jour, le budget mensuel se situe entre 80 € et 350 €. Si la souveraineté est critique : Mistral Small 3 hébergé chez Scaleway.

Faut-il privilégier l'open-source pour des raisons de souveraineté ?

Pas systématiquement. L'open-source (Llama 4, Mistral) garantit la portabilité et l'absence de vendor lock-in, mais l'infrastructure d'inférence coûte 50-200 k€ pour un cluster de production. Pour la plupart des PME, une API propriétaire chez Mistral ou Anthropic via Bedrock EU offre déjà un bon niveau de souveraineté pour un coût marginal.

Le benchmark va-t-il changer si j'utilise un fine-tuning ?

Oui, parfois drastiquement. Un fine-tuning bien fait sur un Mistral Large 2 peut dépasser GPT-5 sur une tâche spécifique. Le benchmark public mesure les capacités base ; vos perfs réelles dépendent de votre pipeline complet.

Comment intégrer ces modèles dans mon SI ?

Voir notre tutoriel Intégrer une API LLM dans une fonction IA et notre dossier vLLM pour le serving production.

Pourquoi DeepSeek V3 ne fait pas top 5 alors qu'il est si peu cher ?

Parce que notre score global ignore volontairement le prix : il mesure la qualité brute. DeepSeek V3 n'est pas "moins bon", il est positionné différemment — son rapport qualité/prix est imbattable, mais sa qualité brute reste 5-10 points sous les leaders. Pour les pipelines à très haut volume (classification, NLP basique), c'est imbattable.

Comment garantir que les chiffres ne sont pas truqués ?

Trois protections : (1) toutes les sources sont publiques et liées dans les références, vous pouvez vérifier vous-mêmes ; (2) nous croisons systématiquement plusieurs sources et signalons les divergences supérieures à 2 points ; (3) nous ne sommes rémunérés par aucun vendor LLM, donc nous n'avons aucun intérêt à favoriser un acteur. La seule garantie ultime reste de re-tester vous-mêmes via lm-evaluation-harness ou Promptfoo sur vos propres données.

Quel modèle pour un agent autonome avec tool calling complexe ?

Claude Opus 4.7 reste le meilleur choix actuel pour les agents complexes. Le tool calling reliability est mesuré à 96 % en production sur 50+ outils, contre 92 % pour GPT-5 et 88 % pour Gemini 2.5 Pro. Si l'agent doit aussi raisonner sur des problèmes scientifiques, basculer sur o3-mini pour les sous-tâches de raisonnement et orchestrer le tout avec Claude Opus 4.7. Cette architecture multi-modèle est appelée "agent supervisor" et devient le standard en 2026.

Que penser des annonces de "GPT-6" ou "Claude Opus 5" pour 2026 ?

Sam Altman et Dario Amodei ont tous deux laissé entendre qu'une nouvelle génération arriverait fin 2026. Sans informations confirmées, il faut rester prudent — les gains marginaux par génération se réduisent (loi des rendements décroissants), et la véritable bataille se jouera plus probablement sur l'agentivité, la mémoire long-terme et le coût d'inférence que sur les scores MMLU bruts.

Le benchmark sera-t-il étendu à d'autres modèles ?

Oui, à mesure que de nouveaux modèles atteignent un seuil de visibilité (Arena Elo > 1250, papers cités plus de 50 fois). En préparation pour juin 2026 : Mistral 3 (annoncé pour fin mai), Anthropic Haiku 4.5, possiblement un Gemini 3.0 Flash, et un modèle "frontier" inattendu côté Hugging Face / Apple Intelligence selon les rumeurs.

Conclusion

Mai 2026 confirme la consolidation du marché LLM : trois leaders propriétaires à moins de 2,5 points d'écart, et un open-source frontier qui a réduit son retard de moitié en un an. Pour les entreprises, le bon réflexe n'est plus de choisir "le meilleur modèle", mais de construire un routing intelligent entre 2-3 modèles selon la complexité du prompt, le budget et les contraintes RGPD.

Rendez-vous le 10 juin 2026 pour l'édition #6 du benchmark IA mensuel, qui devrait intégrer Mistral 3 (annoncé pour fin mai), Llama 4 reasoning, et probablement une mise à jour silencieuse de Claude Opus 4.7. Pour ne rien manquer, abonnez-vous à la newsletter mensuelle ou contactez-nous pour un benchmark personnalisé sur vos données métier.

Partager cet article

Twitter LinkedIn

À propos de l'auteur

Ayi NEDJIMI

Auditeur Senior Cybersécurité & Consultant IA

Expert Judiciaire — Cour d'Appel de Paris
Habilitation Confidentiel Défense

ayi@ayinedjimi-consultants.fr

25+

ans d'expérience

700+

articles publiés

100+

missions réalisées

Ayi NEDJIMI est un vétéran de la cybersécurité avec plus de 25 ans d'expérience sur des missions critiques. Ancien développeur Microsoft à Redmond sur le module GINA (Windows NT4) et co-auteur de la version française du guide de sécurité Windows NT4 pour la NSA.

À la tête d'Ayi NEDJIMI Consultants, il réalise des audits Lead Auditor ISO 42001 et ISO 27001, des pentests d'infrastructures critiques, du forensics et des missions de conformité NIS2 / AI Act.

Conférencier international (Europe & US), il a formé plus de 10 000 professionnels.

Domaines d'expertise

ISO 42001 Lead Auditor ISO 27001 · NIS2 Pentest & Forensics IA / LLM / RAG Cloud & Active Directory

Voir le profil complet Demander un devis

Ressources & Outils de l'auteur

GitHub

Code & projets open source

Hugging Face

Modèles IA & datasets

CertifExpress

Préparez vos certifications IT

WindowsBooster

Optimisation Windows 11

Testez vos connaissances

Mini-quiz de certification lié à cet article — propulsé par CertifExpress

Articles connexes

YaraGen-AI : Générer Règles YARA avec LLM Open Source

YaraGen-AI est un générateur Python open source de règles YARA assisté par LLM. Architecture, installation, validation, comparatif avec yarGen et Yara-Forge, cas d usage ransomware et APT.

10/05/2026

vLLM : Moteur d'Inférence LLM Haute Performance 2026

vLLM est un moteur open-source d'inférence et de service pour LLM, écrit en Python et CUDA, conçu pour offrir un débit maximal et une latence prévisible sur GPU et accélérateurs spécialisés. Né en 2023 au Sky Computing Lab de UC Berkeley sous l'impulsion de Woosuk Kwon, Zhuohan Li, Ion Stoica et Hao Zhang, vLLM cumule en mai 2026 plus de 52 000 étoiles GitHub, 1 100 contributeurs et fait partie de la PyTorch Foundation. Cette page entity-first détaille PagedAttention, le continuous batching, l'architecture worker/scheduler/executor, les 250+ architectures supportées (Llama 4, Mistral, Mixtral, Qwen 3, DeepSeek V3/R1, Phi-4, Gemma 3, GLM-4.5), les backends CUDA/ROCm/CPU/TPU/Neuron/Gaudi, les formats FP8/AWQ/GPTQ/NVFP4, l'API OpenAI-compatible, le speculative decoding, le disaggregated prefill, le prefix caching, le multi-LoRA serving, la vLLM Production Stack Helm Kubernetes, le monitoring Prometheus et les benchmarks face à Ollama, TensorRT-LLM, llama.cpp et SGLang.

10/05/2026

LangChain : Framework LLM, RAG, Agents Python 2026

LangChain est le framework open-source Python et JavaScript de reference pour construire des applications LLM : chatbots, pipelines RAG, agents et copilotes. Cette page entity-first detaille l'histoire (Harrison Chase, octobre 2022), l'architecture modulaire (langchain-core, community, packages partenaires), le langage LCEL, les composants (chains, agents, tools, memory, output parsers, document loaders, splitters, vector stores Chroma/Pinecone/Weaviate/Qdrant/FAISS, embeddings), les outils satellites (LangSmith, LangGraph, LangServe, LangChain.js), la securite (prompt injection, sandbox tools), les CVE majeures (SSRF, PALChain RCE, PromptTemplate injection), la conformite et le comparatif vs LlamaIndex, Pydantic AI, OpenAI Assistants et Haystack.

10/05/2026

Article précédent

Silver Ticket : Attaque Kerberos Service Active Directory

Article suivant

YaraGen-AI : Générer Règles YARA avec LLM Open Source

Commentaires

Aucun commentaire pour le moment. Soyez le premier à commenter !

Laisser un commentaire