Expert Cybersécurité & IAv9.0
Besoin d'un accompagnement expert ?
Devis personnalisé sous 24h — audit, conformité, incident
Checklists Sécurité — Audit & Durcissement
Formats disponibles
📄 PDF 📊 Excel 🌐 Web

11 checklists professionnelles couvrant 2 200+ points de contrôle. Téléchargement gratuit, aucune inscription.

FrenchBench
Mise à jour le 10 mai 2026 · Édition #5 · 12 modèles évalués

La référence française
des benchmarks IA

Classement mensuel indépendant — performances globales et en français. MMLU, HumanEval+, GPQA, LMSYS Arena Elo, FLUE, FQuAD, MMLU-FR, MT-Bench FR. Méthodologie transparente, sources publiques, zéro partenariat vendor.

12

modèles évalués

9

benchmarks utilisés

4

benchmarks en français

5

éditions publiées

RÉSULTATS MENSUELS

Classement LLM par édition

Score global pondéré : MMLU 25% + HumanEval+ 25% + GPQA 25% + LMSYS Arena Elo normalisé 25%. Cliquez sur un mois pour explorer l'édition.

10 JANVIER 2026 · ÉDITION #1

Classement LLM — Janvier 2026

5 modèles testés · Ouverture du FrenchBench

★ Événement : lancement Claude Sonnet 4.5 Llama 4 405B — accès public
# Modèle Prix /1M tok Score
1 GPT-5 early access 30 $ / 90 $ 91,2
2 Claude Sonnet 4.5 NOUVEAU 3 $ / 15 $ 88,4
3 Gemini 2.0 Ultra 8 $ / 24 $ 87,0
4 Llama 4 405B NOUVEAU (open) 3 $ / 6 $ 81,0
5 Mistral Large 2 (2410) 2 $ / 6 $ 79,2

5 modèles testés en janvier. GPT-5 disponible en early access API uniquement. Sources : LMSYS Chatbot Arena, Artificial Analysis, HuggingFace OpenLLM Leaderboard.

10 FÉVRIER 2026 · ÉDITION #2

Classement LLM — Février 2026

7 modèles testés · +2 entrées

★ Mistral Large 2 (2502) — nouvelle version Qwen 2.5 72B + DeepSeek V3 entrent
# Modèle Prix /1M tok Score
1 GPT-5 10 $ / 30 $ 92,0
2 Claude Sonnet 4.5 3 $ / 15 $ 89,1
3 Gemini 2.0 Ultra 8 $ / 24 $ 87,8
4 Llama 4 405B (open) 3 $ / 6 $ 82,3
5 Mistral Large 2 (2502) MAJ 2 $ / 6 $ 80,9
6 DeepSeek V3 NOUVEAU (open) 0,27 $ / 1,10 $ 78,6
7 Qwen 2.5 72B NOUVEAU (open) 0,90 $ / 0,90 $ 78,8

Sources : LMSYS Chatbot Arena (elo), EvalPlus (HumanEval+), GPQA Diamond (arXiv:2311.12022), Artificial Analysis (latence/prix).

10 MARS 2026 · ÉDITION #3

Classement LLM — Mars 2026

9 modèles testés · Claude Opus 4.7 entre en force

★ Claude Opus 4.7 — lancement, bond au #2 Grok 3 entre au classement
# Modèle Prix /1M tok Score
1 GPT-5 10 $ / 30 $ 92,9
2 Claude Opus 4.7 NOUVEAU 15 $ / 75 $ 92,6
3 Claude Sonnet 4.5 3 $ / 15 $ 89,6
4 Gemini 2.0 Ultra 8 $ / 24 $ 88,2
5 Llama 4 405B (open) 3 $ / 6 $ 83,7
6 Mistral Large 2 2 $ / 6 $ 81,4
7 DeepSeek V3 (open) 0,27 $ / 1,10 $ 79,4
8 Qwen 2.5 72B (open) 0,90 $ / 0,90 $ 79,6
9 Grok 3 (xAI) NOUVEAU 5 $ / 15 $ 76,7

Sources : LMSYS, EvalPlus, Artificial Analysis, papers officiels Anthropic/OpenAI/Google.

Lire l'analyse complète mars 2026
10 AVRIL 2026 · ÉDITION #4

Classement LLM — Avril 2026

11 modèles testés · GPT-5 public + Gemini 2.5 Pro

★ GPT-5 ouverture grand public Gemini 2.5 Pro · o3-mini entrent
# Modèle Prix /1M tok Score
1 GPT-5 PUBLIC 10 $ / 30 $ 93,8
2 Claude Opus 4.7 15 $ / 75 $ 93,5
3 Gemini 2.5 Pro NOUVEAU 7 $ / 21 $ 91,2
4 Claude Sonnet 4.5 3 $ / 15 $ 90,1
5 o3-mini NOUVEAU 1,1 $ / 4,4 $ 89,6
6 Llama 4 405B (open) 3 $ / 6 $ 85,5
7 Gemini 2.5 Flash NOUVEAU 0,30 $ / 2,50 $ 84,7
8 Mistral Large 2 2 $ / 6 $ 81,9
9 DeepSeek V3 (open) 0,27 $ / 1,10 $ 81,8
10 Qwen 2.5 72B (open) 0,90 $ / 0,90 $ 79,7
11 Grok 3 (xAI) 5 $ / 15 $ 77,9

Sources : LMSYS Chatbot Arena, EvalPlus, GPQA (Rein et al., 2023), Artificial Analysis, Vellum AI Leaderboard.

10 MAI 2026 · ÉDITION #5 · EN COURS

Classement LLM — Mai 2026

12 modèles testés · Score pondéré MMLU 25% + HumanEval+ 25% + GPQA 25% + Arena Elo normalisé 25%

★ GPT-5-mini + o3-mini arrivent Données collectées le 10 mai 2026
# Modèle Prix /1M tok Score
1 GPT-5 (OpenAI) 10 $ / 30 $ 94,7
2 Claude Opus 4.7 (Anthropic) 15 $ / 75 $ 94,2
3 Gemini 2.5 Pro (Google) 7 $ / 21 $ 92,6
4 Claude Sonnet 4.5 3 $ / 15 $ 90,1
5 o3-mini (OpenAI) 1,1 $ / 4,4 $ 89,8
6 GPT-5-mini NOUVEAU 0,15 $ / 0,60 $ 87,9
7 Llama 4 405B (open) 3 $ / 6 $ 86,9
8 Gemini 2.5 Flash 0,30 $ / 2,50 $ 85,7
9 DeepSeek V3 (open) 0,27 $ / 1,10 $ 84,8
10 Mistral Large 2 (2411) 2 $ / 6 $ 82,4
11 Qwen 2.5 72B (open) 0,90 $ / 0,90 $ 80,1
12 Grok 3 (xAI) 5 $ / 15 $ 78,6

Sources : LMSYS Chatbot Arena (lmsys.org), EvalPlus (evalplus.github.io), GPQA Diamond (arXiv:2311.12022), Artificial Analysis (artificialanalysis.ai), Vellum AI Leaderboard, HuggingFace OpenLLM Leaderboard. Prix API au 10 mai 2026.

Analyse complète mai 2026

Note méthodologique — Les scores Arena Elo sont dynamiques et peuvent varier légèrement entre deux collectes. Le score global agrège MMLU, HumanEval+ et GPQA (sources statiques) + Elo normalisé sur la fenêtre [1 100 ; 1 500]. Voir la méthodologie complète.

Exclusif FrenchBench — 4 benchmarks

Performances en français

Le classement général ne dit pas tout. Un LLM #1 mondial peut être distancé en français par un modèle nativement entraîné sur des corpus francophones. Cette section mesure ce qui compte pour les entreprises françaises.

!

L'insight qui change tout pour les entreprises françaises

Mistral Large 2 passe de #10 mondial à #1 en français. Entraîné par une équipe française sur des corpus francophones massifs, il surpasse GPT-5 et Claude Opus 4.7 sur FLUE, FQuAD et MT-Bench FR. Pour les usages métier en langue française — rédaction juridique, conformité réglementaire, support client, documentation technique — Mistral est le choix rationnel. Et il peut être auto-hébergé en France (souveraineté).

FLUE
French Language Understanding Evaluation

6 tâches : sentiment CLS, paraphrase PAWS-X, inférence XNLI, POS tagging UD, dépendances GSD, traduction TATOEBA. Source : INRIA / LISN (2021). Score = moyenne des 6 sous-tâches.

FQuAD
French Question Answering Dataset

25 000 paires question-réponse extraites de Wikipédia français. Évalue la compréhension de lecture et l'extraction d'information. Créé par Illuin Technology (2020). Métrique : F1 score sur le jeu de test v1.1.

MMLU-FR
Massive Multitask Language Understanding en français

Questions MMLU traduites en français (57 disciplines) + réponses évaluées en français. Adaptation de la communauté LightEval / HuggingFace. Mesure si le modèle raisonne aussi bien en français qu'en anglais.

MT-Bench FR
Multi-turn Benchmark en français

80 questions en français sur 8 catégories : raisonnement, code, maths, rédaction, roleplay, extraction, STEM, humanités. Score /10 attribué par un LLM-juge. Adaptation française de MT-Bench (LMSYS/Stanford 2023).

Rang FR Modèle Score FR
1
Mistral Large 2
Mistral AI — Paris
87,2
2 Claude Opus 4.7 86,9
3 GPT-5 86,5
4 Gemini 2.5 Pro 85,3
5 Claude Sonnet 4.5 83,6
6 Llama 4 405B (open) 81,1
7 GPT-5-mini 79,5
8 DeepSeek V3 (open) 78,3

Pourquoi Mistral domine le benchmark français ?

  • Corpus d'entraînement massivement francophone — Mistral AI a intégré des milliers de milliards de tokens de texte français (presse, littérature, administration, droit, technique) dans ses runs de pré-entraînement.
  • Fine-tuning sur des instructions en français — le RLHF et l'instruction-tuning incluent des données françaises natives, pas uniquement traduites.
  • Tokenizer optimisé — le vocabulaire inclut les tokens français courants, réduisant la fragmentation des mots et améliorant l'efficacité de traitement.
  • Auto-hébergeable en France — Mistral Large 2 est disponible en poids ouverts. Déployable sur bare-metal français avec vLLM, TGI ou Ollama. Zéro envoi de données vers les US.
+9

places gagnées par Mistral
du classement mondial au classement FR

-85%

de coût vs GPT-5
pour des performances FR supérieures

TRANSPARENCE TOTALE

Méthodologie & Sources

Tout est vérifiable. Chaque score, chaque source, chaque pondération est documenté ici. Aucun benchmark interne, aucune donnée vendor non publiée.

Score global — formule de pondération

25%
MMLU 5-shot

Raisonnement général
57 disciplines académiques
14 000 questions

25%
HumanEval+

Génération de code
EvalPlus — anti-pollution
Tests unitaires robustes

25%
GPQA Diamond

Sciences niveau doctorat
Résistant à Google
448 questions expertisées

25%
LMSYS Arena Elo

Préférence humaine
> 2M votes humains
Normalisé [1 100 ; 1 500] → [0 ; 100]

Score = (MMLU_norm × 0,25) + (HumanEval+_norm × 0,25) + (GPQA_norm × 0,25) + (Elo_norm × 0,25)

Tous les scores bruts sont normalisés sur [0;100] avant pondération. Les ratios prix/performance sont calculés séparément et n'entrent pas dans le score global.

Sources de données — détail

LMSYS Chatbot Arena
lmsys.org/leaderboard

Système de votes en aveugle entre deux modèles, score Elo calculé sur plus de 2 millions de comparaisons humaines. Source la plus robuste pour mesurer la préférence utilisateur réelle. Collecte mensuelle via l'API publique le 10 du mois.

EvalPlus (HumanEval+)
evalplus.github.io

Extension rigoureuse de HumanEval avec tests unitaires enrichis pour détecter les faux positifs. 164 problèmes, 2× plus de tests que l'original. Résilient à la mémorisation des solutions. Résultats officiels des model cards + exécution locale pour les modèles open-source.

GPQA Diamond
arXiv:2311.12022 — Rein et al. (2023)

448 questions de sciences (biologie, chimie, physique) rédigées par des experts PhD et vérifiées par d'autres experts. Conçu pour être « résistant à Google » : un doctorant dans le domaine obtient 65%, un professionnel hors domaine 34%. Collecte : résultats des papers officiels ou benchmarks communautaires sur HuggingFace.

Artificial Analysis
artificialanalysis.ai

Benchmarks indépendants de performance end-to-end : latence TTFT (Time To First Token), tokens/seconde, prix API consolidés pour tous les providers. Utilisé exclusivement pour les données de prix — cross-validées avec les grilles tarifaires officielles des vendors.

HuggingFace Open LLM Leaderboard
huggingface.co/spaces/open-llm-leaderboard

Référence pour les modèles open-weights : Llama, Mistral, DeepSeek, Qwen. Tests exécutés dans un environnement standardisé (4-bit quantization possible, reproduite). Source principale pour MMLU, ARC, HellaSwag, TruthfulQA sur les modèles open-source.

Papers officiels & Model Cards
OpenAI, Anthropic, Google DeepMind, Meta, Mistral AI, DeepSeek

Pour les modèles propriétaires, les scores MMLU et GPQA proviennent des rapports techniques officiels (technical reports, system cards). Utilisés uniquement quand les chiffres sont reproductibles par des tiers indépendants. Signalé [vendor] en cas de source unique.

Sources spécifiques — Benchmark Français

FLUE — French Language Understanding Evaluation
He et al., INRIA / LISN (2021) · huggingface.co/datasets/flue

6 tâches NLP en français : CLS (sentiment), PAWS-X (paraphrase), XNLI (inférence), UD POS (morphosyntaxe), GSD (dépendances), TATOEBA (traduction FR↔EN). Le score moyen est calculé après normalisation de chaque sous-tâche.

FQuAD — French Question Answering Dataset
D'Hoffschmidt et al., Illuin Technology (2020) · huggingface.co/datasets/fquad

25 000 paires question-réponse issues de 768 articles Wikipédia français. Métrique : F1 score et Exact Match sur le jeu de test v1.1 (hors données d'entraînement). Les LLM évalués en zero-shot pour éviter la contamination.

MMLU-FR — adaptation LightEval
Communauté HuggingFace / EleutherAI · adaptation française des 57 disciplines MMLU

Traduction professionnelle + validation par locuteurs natifs des questions MMLU. Le modèle reçoit la question en français et doit répondre en français. Mesure l'écart de performance anglais → français, souvent révélateur de la qualité du corpus multilingue.

MT-Bench FR — adaptation multilingue
Adapté de MT-Bench (Zheng et al., LMSYS 2023) par la communauté francophone

80 prompts multi-tours en français couvrant 8 catégories. Évaluation par LLM-juge (GPT-4 Turbo) en mode aveugle. Le score /10 reflète la qualité de réponse en contexte conversationnel français — l'usage le plus fréquent en entreprise.

🕒

Collecte le 10 du mois

Snapshot systématique de toutes les sources publiques chaque 10 du mois. Changelog des variations > 1 point documenté.

Zéro partenariat vendor

Aucune rémunération OpenAI, Anthropic, Google, Mistral ou autre. Indépendance éditoriale garantie par l'absence de tout lien commercial avec les vendors LLM.

📊

Sources uniquement publiques

Aucun benchmark propriétaire. Chaque chiffre est vérifiable sur LMSYS, EvalPlus, HuggingFace, arXiv. Reproductibilité garantie.

Évolution jan–mai 2026

La progression du score global MMLU suit une courbe quasi-linéaire de +3,5 points en 5 mois pour le top 1, signe d'une course technologique intense. La frontière se déplace plus vite que jamais.

GPT-5 Claude Opus 4.7 Gemini 2.5 Pro Llama 4 405B Mistral Large 2
100 95 90 85 80 75 Janvier Février Mars Avril Mai Claude Opus 4.7 launch GPT-5 public

Claude Opus 4.7 bond de +3,5 pts en mars (lancement). GPT-5 répond en avril avec l'ouverture grand public, reprenant l'écart à 0,5 pt. Gemini 2.5 Pro accélère depuis avril.

Newsletter FrenchBench

Le classement complet le 10 du mois — global et en français. Analyse des nouveautés, mouvements de classement, recommandations enterprise. Aucune publicité, désabonnement en un clic.

Données hébergées en France · RGPD compliant · pas de tracking publicitaire

Questions fréquentes

Pourquoi Mistral est-il #1 en français mais seulement #10 au classement global ?

Les benchmarks globaux (MMLU, GPQA, Arena) sont massivement dominés par l'anglais. Mistral AI a entraîné ses modèles sur des corpus francophones massifs et avec un fine-tuning d'instruction natif en français — pas seulement traduit. Sur FLUE (6 tâches NLP français), FQuAD (compréhension de lecture en français) et MT-Bench FR (conversations multi-tours en français), Mistral surpasse GPT-5 et Claude. Pour une entreprise française dont les données et les utilisateurs sont francophones, ce classement FR est celui qui compte — pas le classement global.

Comment sont calculés les scores du benchmark global ?

Le score global est une moyenne pondérée à 25 % chacun de quatre signaux : MMLU 5-shot (raisonnement général, 57 disciplines), HumanEval+ (code, EvalPlus), GPQA Diamond (sciences niveau doctorat) et LMSYS Arena Elo normalisé sur la fenêtre [1 100 ; 1 500] → [0 ; 100]. Les scores bruts sont récupérés sur les sources publiques citées. Aucun benchmark interne, aucun chiffre vendor non publié.

Quel modèle choisir pour une entreprise française soumise au RGPD ?

Deux options compatibles RGPD : (1) API Mistral en mode data residency EU — traitement garanti sur des serveurs européens, Mistral AI étant soumis au droit français. (2) Auto-hébergement en France — Mistral Large 2 et Llama 4 405B sont disponibles en poids ouverts, déployables sur bare-metal français avec vLLM ou TGI. Zéro envoi de données aux États-Unis. Pour les données sensibles (santé, juridique, finance), l'option 2 est préférable. Contactez-nous pour un audit de votre architecture IA.

Pourquoi un classement mensuel et non trimestriel ?

Le rythme de release s'est accéléré : OpenAI, Anthropic, Google et Meta ont lancé des modèles majeurs sur les mêmes 5 mois (jan–mai 2026). Un classement trimestriel serait obsolète dès sa publication. La cadence mensuelle, le 10 du mois, garantit une vue stable et récente, utile pour les décisions d'achat ou d'architecture IA.

Comment intégrer ce benchmark dans un audit IA d'entreprise ?

Notre audit sécurité IA intègre ce classement comme baseline. Nous l'enrichissons par : un benchmark interne sur vos données métier (souvent très différent des scores publics), un test de conformité AI Act (catégorie de risque, obligations), et un audit de data residency selon vos exigences RGPD. Le tout livré sous forme de rapport indépendant.

FrenchBench est-il sponsorisé par OpenAI, Anthropic, Google ou Mistral ?

Non. Aucun partenariat commercial, aucune rémunération vendor, aucun lien d'affiliation. Le seul lien commercial est notre activité de conseil cyber et IA pour des entreprises clientes — ce qui justement nécessite une indépendance éditoriale stricte envers tous les vendors LLM, y compris Mistral AI bien qu'il soit français.

Besoin d'un benchmark personnalisé sur vos données métier ?

Un projet cybersécurité ?

Expert dispo · Réponse 24h

Devis