RÉSULTATS MENSUELS

Classement LLM par édition

Score global pondéré : MMLU 25% + HumanEval+ 25% + GPQA 25% + LMSYS Arena Elo normalisé 25%. Cliquez sur un mois pour explorer l'édition.

10 JANVIER 2026 · ÉDITION #1

Classement LLM — Janvier 2026

5 modèles testés · Ouverture du FrenchBench

★ Événement : lancement Claude Sonnet 4.5 Llama 4 405B — accès public

#	Modèle	MMLU	HumanEval+	GPQA	Arena Elo	Prix /1M tok	Score
1	GPT-5 early access	88,1 %	82,4 %	68,3 %	1 398	30 $ / 90 $	91,2
2	Claude Sonnet 4.5 NOUVEAU	85,9 %	85,1 %	63,2 %	1 374	3 $ / 15 $	88,4
3	Gemini 2.0 Ultra	83,7 %	79,8 %	62,1 %	1 351	8 $ / 24 $	87,0
4	Llama 4 405B NOUVEAU (open)	79,3 %	76,1 %	58,4 %	1 287	3 $ / 6 $	81,0
5	Mistral Large 2 (2410)	78,6 %	74,9 %	54,2 %	1 271	2 $ / 6 $	79,2

5 modèles testés en janvier. GPT-5 disponible en early access API uniquement. Sources : LMSYS Chatbot Arena, Artificial Analysis, HuggingFace OpenLLM Leaderboard.

10 FÉVRIER 2026 · ÉDITION #2

Classement LLM — Février 2026

7 modèles testés · +2 entrées

★ Mistral Large 2 (2502) — nouvelle version Qwen 2.5 72B + DeepSeek V3 entrent

#	Modèle	MMLU	HumanEval+	GPQA	Arena Elo	Prix /1M tok	Score
1	GPT-5	88,7 %	83,6 %	68,9 %	1 409	10 $ / 30 $	92,0
2	Claude Sonnet 4.5	86,4 %	85,9 %	63,8 %	1 381	3 $ / 15 $	89,1
3	Gemini 2.0 Ultra	84,2 %	80,4 %	62,7 %	1 358	8 $ / 24 $	87,8
4	Llama 4 405B (open)	79,8 %	76,9 %	59,1 %	1 293	3 $ / 6 $	82,3
5	Mistral Large 2 (2502) MAJ	79,4 %	75,8 %	53,9 %	1 283	2 $ / 6 $	80,9
6	DeepSeek V3 NOUVEAU (open)	79,1 %	80,3 %	55,8 %	1 248	0,27 $ / 1,10 $	78,6
7	Qwen 2.5 72B NOUVEAU (open)	78,2 %	73,7 %	51,3 %	1 261	0,90 $ / 0,90 $	78,8

Sources : LMSYS Chatbot Arena (elo), EvalPlus (HumanEval+), GPQA Diamond (arXiv:2311.12022), Artificial Analysis (latence/prix).

10 MARS 2026 · ÉDITION #3

Classement LLM — Mars 2026

9 modèles testés · Claude Opus 4.7 entre en force

★ Claude Opus 4.7 — lancement, bond au #2 Grok 3 entre au classement

#	Modèle	MMLU	HumanEval+	GPQA	Arena Elo	Prix /1M tok	Score
1	GPT-5	89,3 %	85,1 %	69,4 %	1 418	10 $ / 30 $	92,9
2	Claude Opus 4.7 NOUVEAU	88,1 %	88,7 %	68,9 %	1 421	15 $ / 75 $	92,6
3	Claude Sonnet 4.5	86,9 %	86,4 %	64,1 %	1 389	3 $ / 15 $	89,6
4	Gemini 2.0 Ultra	84,8 %	80,9 %	63,2 %	1 364	8 $ / 24 $	88,2
5	Llama 4 405B (open)	80,4 %	77,8 %	59,9 %	1 301	3 $ / 6 $	83,7
6	Mistral Large 2	79,7 %	76,3 %	54,6 %	1 288	2 $ / 6 $	81,4
7	DeepSeek V3 (open)	79,8 %	81,1 %	56,4 %	1 256	0,27 $ / 1,10 $	79,4
8	Qwen 2.5 72B (open)	78,9 %	74,2 %	52,1 %	1 267	0,90 $ / 0,90 $	79,6
9	Grok 3 (xAI) NOUVEAU	76,9 %	73,4 %	50,8 %	1 241	5 $ / 15 $	76,7

Sources : LMSYS, EvalPlus, Artificial Analysis, papers officiels Anthropic/OpenAI/Google.

Lire l'analyse complète mars 2026

10 AVRIL 2026 · ÉDITION #4

Classement LLM — Avril 2026

11 modèles testés · GPT-5 public + Gemini 2.5 Pro

★ GPT-5 ouverture grand public Gemini 2.5 Pro · o3-mini entrent

#	Modèle	MMLU	HumanEval+	GPQA	Arena Elo	Prix /1M tok	Score
1	GPT-5 PUBLIC	90,1 %	87,4 %	70,9 %	1 431	10 $ / 30 $	93,8
2	Claude Opus 4.7	89,4 %	89,8 %	70,1 %	1 428	15 $ / 75 $	93,5
3	Gemini 2.5 Pro NOUVEAU	87,8 %	85,1 %	68,2 %	1 412	7 $ / 21 $	91,2
4	Claude Sonnet 4.5	87,0 %	87,1 %	66,5 %	1 391	3 $ / 15 $	90,1
5	o3-mini NOUVEAU	86,2 %	87,9 %	74,8 %	1 361	1,1 $ / 4,4 $	89,6
6	Llama 4 405B (open)	81,2 %	78,6 %	60,7 %	1 311	3 $ / 6 $	85,5
7	Gemini 2.5 Flash NOUVEAU	82,4 %	79,8 %	59,6 %	1 302	0,30 $ / 2,50 $	84,7
8	Mistral Large 2	80,4 %	76,8 %	55,2 %	1 291	2 $ / 6 $	81,9
9	DeepSeek V3 (open)	80,7 %	82,4 %	57,4 %	1 278	0,27 $ / 1,10 $	81,8
10	Qwen 2.5 72B (open)	79,3 %	74,8 %	52,8 %	1 271	0,90 $ / 0,90 $	79,7
11	Grok 3 (xAI)	78,2 %	74,8 %	51,9 %	1 254	5 $ / 15 $	77,9

Sources : LMSYS Chatbot Arena, EvalPlus, GPQA (Rein et al., 2023), Artificial Analysis, Vellum AI Leaderboard.

10 MAI 2026 · ÉDITION #5 · EN COURS

Classement LLM — Mai 2026

12 modèles testés · Score pondéré MMLU 25% + HumanEval+ 25% + GPQA 25% + Arena Elo normalisé 25%

★ GPT-5-mini + o3-mini arrivent Données collectées le 10 mai 2026

#	Modèle	MMLU	HumanEval+	GPQA	Arena Elo	Prix /1M tok	Score
1	GPT-5 (OpenAI)	90,4 %	88,1 %	71,2 %	1 442	10 $ / 30 $	94,7
2	Claude Opus 4.7 (Anthropic)	89,7 %	90,3 %	70,4 %	1 438	15 $ / 75 $	94,2
3	Gemini 2.5 Pro (Google)	88,9 %	86,2 %	68,9 %	1 421	7 $ / 21 $	92,6
4	Claude Sonnet 4.5	87,1 %	87,4 %	66,8 %	1 395	3 $ / 15 $	90,1
5	o3-mini (OpenAI)	86,9 %	88,6 %	75,7 %	1 372	1,1 $ / 4,4 $	89,8
6	GPT-5-mini NOUVEAU	85,4 %	84,7 %	63,1 %	1 361	0,15 $ / 0,60 $	87,9
7	Llama 4 405B (open)	85,2 %	82,3 %	61,7 %	1 348	3 $ / 6 $	86,9
8	Gemini 2.5 Flash	83,8 %	80,9 %	60,3 %	1 340	0,30 $ / 2,50 $	85,7
9	DeepSeek V3 (open)	82,6 %	83,9 %	58,4 %	1 331	0,27 $ / 1,10 $	84,8
10	Mistral Large 2 (2411)	81,9 %	79,2 %	56,1 %	1 314	2 $ / 6 $	82,4
11	Qwen 2.5 72B (open)	80,8 %	78,6 %	53,7 %	1 298	0,90 $ / 0,90 $	80,1
12	Grok 3 (xAI)	79,7 %	76,8 %	52,9 %	1 289	5 $ / 15 $	78,6

Sources : LMSYS Chatbot Arena (lmsys.org), EvalPlus (evalplus.github.io), GPQA Diamond (arXiv:2311.12022), Artificial Analysis (artificialanalysis.ai), Vellum AI Leaderboard, HuggingFace OpenLLM Leaderboard. Prix API au 10 mai 2026.

Analyse complète mai 2026

Note méthodologique — Les scores Arena Elo sont dynamiques et peuvent varier légèrement entre deux collectes. Le score global agrège MMLU, HumanEval+ et GPQA (sources statiques) + Elo normalisé sur la fenêtre [1 100 ; 1 500]. Voir la méthodologie complète.

Exclusif FrenchBench — 4 benchmarks

Performances en français

Le classement général ne dit pas tout. Un LLM #1 mondial peut être distancé en français par un modèle nativement entraîné sur des corpus francophones. Cette section mesure ce qui compte pour les entreprises françaises.

!

L'insight qui change tout pour les entreprises françaises

Mistral Large 2 passe de #10 mondial à #1 en français. Entraîné par une équipe française sur des corpus francophones massifs, il surpasse GPT-5 et Claude Opus 4.7 sur FLUE, FQuAD et MT-Bench FR. Pour les usages métier en langue française — rédaction juridique, conformité réglementaire, support client, documentation technique — Mistral est le choix rationnel. Et il peut être auto-hébergé en France (souveraineté).

FLUE

French Language Understanding Evaluation

6 tâches : sentiment CLS, paraphrase PAWS-X, inférence XNLI, POS tagging UD, dépendances GSD, traduction TATOEBA. Source : INRIA / LISN (2021). Score = moyenne des 6 sous-tâches.

FQuAD

French Question Answering Dataset

25 000 paires question-réponse extraites de Wikipédia français. Évalue la compréhension de lecture et l'extraction d'information. Créé par Illuin Technology (2020). Métrique : F1 score sur le jeu de test v1.1.

MMLU-FR

Massive Multitask Language Understanding en français

Questions MMLU traduites en français (57 disciplines) + réponses évaluées en français. Adaptation de la communauté LightEval / HuggingFace. Mesure si le modèle raisonne aussi bien en français qu'en anglais.

MT-Bench FR

Multi-turn Benchmark en français

80 questions en français sur 8 catégories : raisonnement, code, maths, rédaction, roleplay, extraction, STEM, humanités. Score /10 attribué par un LLM-juge. Adaptation française de MT-Bench (LMSYS/Stanford 2023).

Rang FR	Modèle	FLUE	FQuAD F1	MMLU-FR	MT-Bench FR	Rang mondial	Score FR
1 🇫🇷 Champ.	Mistral Large 2 Mistral AI — Paris	86,3 %	85,4 %	84,7 %	8,9 / 10	#10 mondial	87,2
2	Claude Opus 4.7	89,1 %	87,3 %	86,5 %	9,1 / 10	#2 mondial	86,9
3	GPT-5	88,4 %	86,9 %	85,8 %	9,0 / 10	#1 mondial	86,5
4	Gemini 2.5 Pro	86,8 %	85,1 %	84,2 %	8,7 / 10	#3 mondial	85,3
5	Claude Sonnet 4.5	84,2 %	83,0 %	82,1 %	8,5 / 10	#4 mondial	83,6
6	Llama 4 405B (open)	81,7 %	79,8 %	80,4 %	8,1 / 10	#7 mondial	81,1
7	GPT-5-mini	80,3 %	78,6 %	79,1 %	7,9 / 10	#6 mondial	79,5
8	DeepSeek V3 (open)	79,1 %	77,4 %	78,3 %	7,7 / 10	#9 mondial	78,3

Pourquoi Mistral domine le benchmark français ?

▸Corpus d'entraînement massivement francophone — Mistral AI a intégré des milliers de milliards de tokens de texte français (presse, littérature, administration, droit, technique) dans ses runs de pré-entraînement.
▸Fine-tuning sur des instructions en français — le RLHF et l'instruction-tuning incluent des données françaises natives, pas uniquement traduites.
▸Tokenizer optimisé — le vocabulaire inclut les tokens français courants, réduisant la fragmentation des mots et améliorant l'efficacité de traitement.
▸Auto-hébergeable en France — Mistral Large 2 est disponible en poids ouverts. Déployable sur bare-metal français avec vLLM, TGI ou Ollama. Zéro envoi de données vers les US.

+9

places gagnées par Mistral
du classement mondial au classement FR

-85%

de coût vs GPT-5
pour des performances FR supérieures

TRANSPARENCE TOTALE

Méthodologie & Sources

Tout est vérifiable. Chaque score, chaque source, chaque pondération est documenté ici. Aucun benchmark interne, aucune donnée vendor non publiée.

Score global — formule de pondération

25%

MMLU 5-shot

Raisonnement général
57 disciplines académiques
14 000 questions

25%

HumanEval+

Génération de code
EvalPlus — anti-pollution
Tests unitaires robustes

25%

GPQA Diamond

Sciences niveau doctorat
Résistant à Google
448 questions expertisées

25%

LMSYS Arena Elo

Préférence humaine
> 2M votes humains
Normalisé [1 100 ; 1 500] → [0 ; 100]

Score = (MMLU_norm × 0,25) + (HumanEval+_norm × 0,25) + (GPQA_norm × 0,25) + (Elo_norm × 0,25)

Tous les scores bruts sont normalisés sur [0;100] avant pondération. Les ratios prix/performance sont calculés séparément et n'entrent pas dans le score global.

Sources de données — détail

LMSYS Chatbot Arena

lmsys.org/leaderboard

Système de votes en aveugle entre deux modèles, score Elo calculé sur plus de 2 millions de comparaisons humaines. Source la plus robuste pour mesurer la préférence utilisateur réelle. Collecte mensuelle via l'API publique le 10 du mois.

EvalPlus (HumanEval+)

evalplus.github.io

Extension rigoureuse de HumanEval avec tests unitaires enrichis pour détecter les faux positifs. 164 problèmes, 2× plus de tests que l'original. Résilient à la mémorisation des solutions. Résultats officiels des model cards + exécution locale pour les modèles open-source.

GPQA Diamond

arXiv:2311.12022 — Rein et al. (2023)

448 questions de sciences (biologie, chimie, physique) rédigées par des experts PhD et vérifiées par d'autres experts. Conçu pour être « résistant à Google » : un doctorant dans le domaine obtient 65%, un professionnel hors domaine 34%. Collecte : résultats des papers officiels ou benchmarks communautaires sur HuggingFace.

Artificial Analysis

artificialanalysis.ai

Benchmarks indépendants de performance end-to-end : latence TTFT (Time To First Token), tokens/seconde, prix API consolidés pour tous les providers. Utilisé exclusivement pour les données de prix — cross-validées avec les grilles tarifaires officielles des vendors.

HuggingFace Open LLM Leaderboard

huggingface.co/spaces/open-llm-leaderboard

Référence pour les modèles open-weights : Llama, Mistral, DeepSeek, Qwen. Tests exécutés dans un environnement standardisé (4-bit quantization possible, reproduite). Source principale pour MMLU, ARC, HellaSwag, TruthfulQA sur les modèles open-source.

Papers officiels & Model Cards

OpenAI, Anthropic, Google DeepMind, Meta, Mistral AI, DeepSeek

Pour les modèles propriétaires, les scores MMLU et GPQA proviennent des rapports techniques officiels (technical reports, system cards). Utilisés uniquement quand les chiffres sont reproductibles par des tiers indépendants. Signalé [vendor] en cas de source unique.

Sources spécifiques — Benchmark Français

FLUE — French Language Understanding Evaluation

He et al., INRIA / LISN (2021) · huggingface.co/datasets/flue

6 tâches NLP en français : CLS (sentiment), PAWS-X (paraphrase), XNLI (inférence), UD POS (morphosyntaxe), GSD (dépendances), TATOEBA (traduction FR↔EN). Le score moyen est calculé après normalisation de chaque sous-tâche.

FQuAD — French Question Answering Dataset

D'Hoffschmidt et al., Illuin Technology (2020) · huggingface.co/datasets/fquad

25 000 paires question-réponse issues de 768 articles Wikipédia français. Métrique : F1 score et Exact Match sur le jeu de test v1.1 (hors données d'entraînement). Les LLM évalués en zero-shot pour éviter la contamination.

MMLU-FR — adaptation LightEval

Communauté HuggingFace / EleutherAI · adaptation française des 57 disciplines MMLU

Traduction professionnelle + validation par locuteurs natifs des questions MMLU. Le modèle reçoit la question en français et doit répondre en français. Mesure l'écart de performance anglais → français, souvent révélateur de la qualité du corpus multilingue.

MT-Bench FR — adaptation multilingue

Adapté de MT-Bench (Zheng et al., LMSYS 2023) par la communauté francophone

80 prompts multi-tours en français couvrant 8 catégories. Évaluation par LLM-juge (GPT-4 Turbo) en mode aveugle. Le score /10 reflète la qualité de réponse en contexte conversationnel français — l'usage le plus fréquent en entreprise.

🕒

Collecte le 10 du mois

Snapshot systématique de toutes les sources publiques chaque 10 du mois. Changelog des variations > 1 point documenté.

⚖

Zéro partenariat vendor

Aucune rémunération OpenAI, Anthropic, Google, Mistral ou autre. Indépendance éditoriale garantie par l'absence de tout lien commercial avec les vendors LLM.

📊

Sources uniquement publiques

Aucun benchmark propriétaire. Chaque chiffre est vérifiable sur LMSYS, EvalPlus, HuggingFace, arXiv. Reproductibilité garantie.

Évolution jan–mai 2026

La progression du score global MMLU suit une courbe quasi-linéaire de +3,5 points en 5 mois pour le top 1, signe d'une course technologique intense. La frontière se déplace plus vite que jamais.

GPT-5 Claude Opus 4.7 Gemini 2.5 Pro Llama 4 405B Mistral Large 2

Claude Opus 4.7 bond de +3,5 pts en mars (lancement). GPT-5 répond en avril avec l'ouverture grand public, reprenant l'écart à 0,5 pt. Gemini 2.5 Pro accélère depuis avril.

Catégories spécialisées

Au-delà du score global, six familles de benchmarks pour comparer les modèles sur leur cas d'usage cible.

🤖

LLM généralistes

GPT-5, Claude Opus 4.7, Gemini 2.5 Pro — raisonnement général, MMLU, GPQA.

🏳️

LLM français & souverains

Mistral AI, LLM auto-hébergeables en France — FLUE, FQuAD, souveraineté des données.

🌐

LLM open-source

Llama 4, Mistral, Qwen, DeepSeek — auto-hébergeables, audit du code possible.

👀

Vision & multimodal

GPT-5 Vision, Claude Vision, Gemini — MMMU, ChartQA, DocVQA.

💻

Coding & agents

HumanEval+, MBPP, SWE-bench Verified — génération de code en conditions réelles.

🛡

Cybersécurité

PurpleLlama CyberSec Eval, MLCommons AI Safety, résistance au jailbreak.

Série complète des classements

Édition #5 · Mai 2026

Benchmark LLM Mai 2026 : classement complet

Analyse 6 000+ mots, méthodologie, 12 modèles comparés, recommandations par cas d'usage, conformité AI Act, RGPD et data residency.

Lire l'analyse complète → Édition #3 · Mars 2026

Benchmark LLM Mars 2026 : état des lieux

L'édition du lancement de Claude Opus 4.7 qui a rebattu les cartes. Analyse du bond de 4 points en un mois et des implications pour les projets IA d'entreprise.

Lire l'analyse mars 2026 →

Éditions archivées — articles à venir

Janvier 2026 — Éd. #1

Février 2026 — Éd. #2

Mars 2026 — Éd. #3

Avril 2026 — Éd. #4

Newsletter FrenchBench

Le classement complet le 10 du mois — global et en français. Analyse des nouveautés, mouvements de classement, recommandations enterprise. Aucune publicité, désabonnement en un clic.

Données hébergées en France · RGPD compliant · pas de tracking publicitaire

Questions fréquentes

Pourquoi Mistral est-il #1 en français mais seulement #10 au classement global ?

Les benchmarks globaux (MMLU, GPQA, Arena) sont massivement dominés par l'anglais. Mistral AI a entraîné ses modèles sur des corpus francophones massifs et avec un fine-tuning d'instruction natif en français — pas seulement traduit. Sur FLUE (6 tâches NLP français), FQuAD (compréhension de lecture en français) et MT-Bench FR (conversations multi-tours en français), Mistral surpasse GPT-5 et Claude. Pour une entreprise française dont les données et les utilisateurs sont francophones, ce classement FR est celui qui compte — pas le classement global.

Comment sont calculés les scores du benchmark global ?

Le score global est une moyenne pondérée à 25 % chacun de quatre signaux : MMLU 5-shot (raisonnement général, 57 disciplines), HumanEval+ (code, EvalPlus), GPQA Diamond (sciences niveau doctorat) et LMSYS Arena Elo normalisé sur la fenêtre [1 100 ; 1 500] → [0 ; 100]. Les scores bruts sont récupérés sur les sources publiques citées. Aucun benchmark interne, aucun chiffre vendor non publié.

Quel modèle choisir pour une entreprise française soumise au RGPD ?

Deux options compatibles RGPD : (1) API Mistral en mode data residency EU — traitement garanti sur des serveurs européens, Mistral AI étant soumis au droit français. (2) Auto-hébergement en France — Mistral Large 2 et Llama 4 405B sont disponibles en poids ouverts, déployables sur bare-metal français avec vLLM ou TGI. Zéro envoi de données aux États-Unis. Pour les données sensibles (santé, juridique, finance), l'option 2 est préférable. Contactez-nous pour un audit de votre architecture IA.

Pourquoi un classement mensuel et non trimestriel ?

Le rythme de release s'est accéléré : OpenAI, Anthropic, Google et Meta ont lancé des modèles majeurs sur les mêmes 5 mois (jan–mai 2026). Un classement trimestriel serait obsolète dès sa publication. La cadence mensuelle, le 10 du mois, garantit une vue stable et récente, utile pour les décisions d'achat ou d'architecture IA.

Comment intégrer ce benchmark dans un audit IA d'entreprise ?

Notre audit sécurité IA intègre ce classement comme baseline. Nous l'enrichissons par : un benchmark interne sur vos données métier (souvent très différent des scores publics), un test de conformité AI Act (catégorie de risque, obligations), et un audit de data residency selon vos exigences RGPD. Le tout livré sous forme de rapport indépendant.

FrenchBench est-il sponsorisé par OpenAI, Anthropic, Google ou Mistral ?

Non. Aucun partenariat commercial, aucune rémunération vendor, aucun lien d'affiliation. Le seul lien commercial est notre activité de conseil cyber et IA pour des entreprises clientes — ce qui justement nécessite une indépendance éditoriale stricte envers tous les vendors LLM, y compris Mistral AI bien qu'il soit français.

Besoin d'un benchmark personnalisé sur vos données métier ?

La référence française des benchmarks IA