La référence française
des benchmarks IA
Classement mensuel indépendant — performances globales et en français. MMLU, HumanEval+, GPQA, LMSYS Arena Elo, FLUE, FQuAD, MMLU-FR, MT-Bench FR. Méthodologie transparente, sources publiques, zéro partenariat vendor.
modèles évalués
benchmarks utilisés
benchmarks en français
éditions publiées
Classement LLM par édition
Score global pondéré : MMLU 25% + HumanEval+ 25% + GPQA 25% + LMSYS Arena Elo normalisé 25%. Cliquez sur un mois pour explorer l'édition.
Classement LLM — Mai 2026
12 modèles testés · Score pondéré MMLU 25% + HumanEval+ 25% + GPQA 25% + Arena Elo normalisé 25%
| # | Modèle | Prix /1M tok | Score |
|---|---|---|---|
| 1 | GPT-5 (OpenAI) | 10 $ / 30 $ | 94,7 |
| 2 | Claude Opus 4.7 (Anthropic) | 15 $ / 75 $ | 94,2 |
| 3 | Gemini 2.5 Pro (Google) | 7 $ / 21 $ | 92,6 |
| 4 | Claude Sonnet 4.5 | 3 $ / 15 $ | 90,1 |
| 5 | o3-mini (OpenAI) | 1,1 $ / 4,4 $ | 89,8 |
| 6 | GPT-5-mini NOUVEAU | 0,15 $ / 0,60 $ | 87,9 |
| 7 | Llama 4 405B (open) | 3 $ / 6 $ | 86,9 |
| 8 | Gemini 2.5 Flash | 0,30 $ / 2,50 $ | 85,7 |
| 9 | DeepSeek V3 (open) | 0,27 $ / 1,10 $ | 84,8 |
| 10 | Mistral Large 2 (2411) | 2 $ / 6 $ | 82,4 |
| 11 | Qwen 2.5 72B (open) | 0,90 $ / 0,90 $ | 80,1 |
| 12 | Grok 3 (xAI) | 5 $ / 15 $ | 78,6 |
Sources : LMSYS Chatbot Arena (lmsys.org), EvalPlus (evalplus.github.io), GPQA Diamond (arXiv:2311.12022), Artificial Analysis (artificialanalysis.ai), Vellum AI Leaderboard, HuggingFace OpenLLM Leaderboard. Prix API au 10 mai 2026.
Analyse complète mai 2026Note méthodologique — Les scores Arena Elo sont dynamiques et peuvent varier légèrement entre deux collectes. Le score global agrège MMLU, HumanEval+ et GPQA (sources statiques) + Elo normalisé sur la fenêtre [1 100 ; 1 500]. Voir la méthodologie complète.
Performances en français
Le classement général ne dit pas tout. Un LLM #1 mondial peut être distancé en français par un modèle nativement entraîné sur des corpus francophones. Cette section mesure ce qui compte pour les entreprises françaises.
L'insight qui change tout pour les entreprises françaises
Mistral Large 2 passe de #10 mondial à #1 en français. Entraîné par une équipe française sur des corpus francophones massifs, il surpasse GPT-5 et Claude Opus 4.7 sur FLUE, FQuAD et MT-Bench FR. Pour les usages métier en langue française — rédaction juridique, conformité réglementaire, support client, documentation technique — Mistral est le choix rationnel. Et il peut être auto-hébergé en France (souveraineté).
6 tâches : sentiment CLS, paraphrase PAWS-X, inférence XNLI, POS tagging UD, dépendances GSD, traduction TATOEBA. Source : INRIA / LISN (2021). Score = moyenne des 6 sous-tâches.
25 000 paires question-réponse extraites de Wikipédia français. Évalue la compréhension de lecture et l'extraction d'information. Créé par Illuin Technology (2020). Métrique : F1 score sur le jeu de test v1.1.
Questions MMLU traduites en français (57 disciplines) + réponses évaluées en français. Adaptation de la communauté LightEval / HuggingFace. Mesure si le modèle raisonne aussi bien en français qu'en anglais.
80 questions en français sur 8 catégories : raisonnement, code, maths, rédaction, roleplay, extraction, STEM, humanités. Score /10 attribué par un LLM-juge. Adaptation française de MT-Bench (LMSYS/Stanford 2023).
| Rang FR | Modèle | Score FR |
|---|---|---|
|
1
|
Mistral Large 2
Mistral AI — Paris
|
87,2 |
| 2 | Claude Opus 4.7 | 86,9 |
| 3 | GPT-5 | 86,5 |
| 4 | Gemini 2.5 Pro | 85,3 |
| 5 | Claude Sonnet 4.5 | 83,6 |
| 6 | Llama 4 405B (open) | 81,1 |
| 7 | GPT-5-mini | 79,5 |
| 8 | DeepSeek V3 (open) | 78,3 |
Pourquoi Mistral domine le benchmark français ?
- ▸Corpus d'entraînement massivement francophone — Mistral AI a intégré des milliers de milliards de tokens de texte français (presse, littérature, administration, droit, technique) dans ses runs de pré-entraînement.
- ▸Fine-tuning sur des instructions en français — le RLHF et l'instruction-tuning incluent des données françaises natives, pas uniquement traduites.
- ▸Tokenizer optimisé — le vocabulaire inclut les tokens français courants, réduisant la fragmentation des mots et améliorant l'efficacité de traitement.
- ▸Auto-hébergeable en France — Mistral Large 2 est disponible en poids ouverts. Déployable sur bare-metal français avec vLLM, TGI ou Ollama. Zéro envoi de données vers les US.
places gagnées par Mistral
du classement mondial au classement FR
de coût vs GPT-5
pour des performances FR supérieures
Méthodologie & Sources
Tout est vérifiable. Chaque score, chaque source, chaque pondération est documenté ici. Aucun benchmark interne, aucune donnée vendor non publiée.
Score global — formule de pondération
Raisonnement général
57 disciplines académiques
14 000 questions
Génération de code
EvalPlus — anti-pollution
Tests unitaires robustes
Sciences niveau doctorat
Résistant à Google
448 questions expertisées
Préférence humaine
> 2M votes humains
Normalisé [1 100 ; 1 500] → [0 ; 100]
Score = (MMLU_norm × 0,25) + (HumanEval+_norm × 0,25) + (GPQA_norm × 0,25) + (Elo_norm × 0,25)
Tous les scores bruts sont normalisés sur [0;100] avant pondération. Les ratios prix/performance sont calculés séparément et n'entrent pas dans le score global.
Sources de données — détail
Système de votes en aveugle entre deux modèles, score Elo calculé sur plus de 2 millions de comparaisons humaines. Source la plus robuste pour mesurer la préférence utilisateur réelle. Collecte mensuelle via l'API publique le 10 du mois.
Extension rigoureuse de HumanEval avec tests unitaires enrichis pour détecter les faux positifs. 164 problèmes, 2× plus de tests que l'original. Résilient à la mémorisation des solutions. Résultats officiels des model cards + exécution locale pour les modèles open-source.
448 questions de sciences (biologie, chimie, physique) rédigées par des experts PhD et vérifiées par d'autres experts. Conçu pour être « résistant à Google » : un doctorant dans le domaine obtient 65%, un professionnel hors domaine 34%. Collecte : résultats des papers officiels ou benchmarks communautaires sur HuggingFace.
Benchmarks indépendants de performance end-to-end : latence TTFT (Time To First Token), tokens/seconde, prix API consolidés pour tous les providers. Utilisé exclusivement pour les données de prix — cross-validées avec les grilles tarifaires officielles des vendors.
Référence pour les modèles open-weights : Llama, Mistral, DeepSeek, Qwen. Tests exécutés dans un environnement standardisé (4-bit quantization possible, reproduite). Source principale pour MMLU, ARC, HellaSwag, TruthfulQA sur les modèles open-source.
Pour les modèles propriétaires, les scores MMLU et GPQA proviennent des rapports techniques officiels (technical reports, system cards). Utilisés uniquement quand les chiffres sont reproductibles par des tiers indépendants. Signalé [vendor] en cas de source unique.
Sources spécifiques — Benchmark Français
6 tâches NLP en français : CLS (sentiment), PAWS-X (paraphrase), XNLI (inférence), UD POS (morphosyntaxe), GSD (dépendances), TATOEBA (traduction FR↔EN). Le score moyen est calculé après normalisation de chaque sous-tâche.
25 000 paires question-réponse issues de 768 articles Wikipédia français. Métrique : F1 score et Exact Match sur le jeu de test v1.1 (hors données d'entraînement). Les LLM évalués en zero-shot pour éviter la contamination.
Traduction professionnelle + validation par locuteurs natifs des questions MMLU. Le modèle reçoit la question en français et doit répondre en français. Mesure l'écart de performance anglais → français, souvent révélateur de la qualité du corpus multilingue.
80 prompts multi-tours en français couvrant 8 catégories. Évaluation par LLM-juge (GPT-4 Turbo) en mode aveugle. Le score /10 reflète la qualité de réponse en contexte conversationnel français — l'usage le plus fréquent en entreprise.
Collecte le 10 du mois
Snapshot systématique de toutes les sources publiques chaque 10 du mois. Changelog des variations > 1 point documenté.
Zéro partenariat vendor
Aucune rémunération OpenAI, Anthropic, Google, Mistral ou autre. Indépendance éditoriale garantie par l'absence de tout lien commercial avec les vendors LLM.
Sources uniquement publiques
Aucun benchmark propriétaire. Chaque chiffre est vérifiable sur LMSYS, EvalPlus, HuggingFace, arXiv. Reproductibilité garantie.
Évolution jan–mai 2026
La progression du score global MMLU suit une courbe quasi-linéaire de +3,5 points en 5 mois pour le top 1, signe d'une course technologique intense. La frontière se déplace plus vite que jamais.
Claude Opus 4.7 bond de +3,5 pts en mars (lancement). GPT-5 répond en avril avec l'ouverture grand public, reprenant l'écart à 0,5 pt. Gemini 2.5 Pro accélère depuis avril.
Catégories spécialisées
Au-delà du score global, six familles de benchmarks pour comparer les modèles sur leur cas d'usage cible.
LLM généralistes
GPT-5, Claude Opus 4.7, Gemini 2.5 Pro — raisonnement général, MMLU, GPQA.
LLM français & souverains
Mistral AI, LLM auto-hébergeables en France — FLUE, FQuAD, souveraineté des données.
LLM open-source
Llama 4, Mistral, Qwen, DeepSeek — auto-hébergeables, audit du code possible.
Vision & multimodal
GPT-5 Vision, Claude Vision, Gemini — MMMU, ChartQA, DocVQA.
Coding & agents
HumanEval+, MBPP, SWE-bench Verified — génération de code en conditions réelles.
Cybersécurité
PurpleLlama CyberSec Eval, MLCommons AI Safety, résistance au jailbreak.
Série complète des classements
Benchmark LLM Mai 2026 : classement complet
Analyse 6 000+ mots, méthodologie, 12 modèles comparés, recommandations par cas d'usage, conformité AI Act, RGPD et data residency.
Lire l'analyse complète → Édition #3 · Mars 2026Benchmark LLM Mars 2026 : état des lieux
L'édition du lancement de Claude Opus 4.7 qui a rebattu les cartes. Analyse du bond de 4 points en un mois et des implications pour les projets IA d'entreprise.
Lire l'analyse mars 2026 →Newsletter FrenchBench
Le classement complet le 10 du mois — global et en français. Analyse des nouveautés, mouvements de classement, recommandations enterprise. Aucune publicité, désabonnement en un clic.
Données hébergées en France · RGPD compliant · pas de tracking publicitaire
Questions fréquentes
Pourquoi Mistral est-il #1 en français mais seulement #10 au classement global ?
Les benchmarks globaux (MMLU, GPQA, Arena) sont massivement dominés par l'anglais. Mistral AI a entraîné ses modèles sur des corpus francophones massifs et avec un fine-tuning d'instruction natif en français — pas seulement traduit. Sur FLUE (6 tâches NLP français), FQuAD (compréhension de lecture en français) et MT-Bench FR (conversations multi-tours en français), Mistral surpasse GPT-5 et Claude. Pour une entreprise française dont les données et les utilisateurs sont francophones, ce classement FR est celui qui compte — pas le classement global.
Comment sont calculés les scores du benchmark global ?
Le score global est une moyenne pondérée à 25 % chacun de quatre signaux : MMLU 5-shot (raisonnement général, 57 disciplines), HumanEval+ (code, EvalPlus), GPQA Diamond (sciences niveau doctorat) et LMSYS Arena Elo normalisé sur la fenêtre [1 100 ; 1 500] → [0 ; 100]. Les scores bruts sont récupérés sur les sources publiques citées. Aucun benchmark interne, aucun chiffre vendor non publié.
Quel modèle choisir pour une entreprise française soumise au RGPD ?
Deux options compatibles RGPD : (1) API Mistral en mode data residency EU — traitement garanti sur des serveurs européens, Mistral AI étant soumis au droit français. (2) Auto-hébergement en France — Mistral Large 2 et Llama 4 405B sont disponibles en poids ouverts, déployables sur bare-metal français avec vLLM ou TGI. Zéro envoi de données aux États-Unis. Pour les données sensibles (santé, juridique, finance), l'option 2 est préférable. Contactez-nous pour un audit de votre architecture IA.
Pourquoi un classement mensuel et non trimestriel ?
Le rythme de release s'est accéléré : OpenAI, Anthropic, Google et Meta ont lancé des modèles majeurs sur les mêmes 5 mois (jan–mai 2026). Un classement trimestriel serait obsolète dès sa publication. La cadence mensuelle, le 10 du mois, garantit une vue stable et récente, utile pour les décisions d'achat ou d'architecture IA.
Comment intégrer ce benchmark dans un audit IA d'entreprise ?
Notre audit sécurité IA intègre ce classement comme baseline. Nous l'enrichissons par : un benchmark interne sur vos données métier (souvent très différent des scores publics), un test de conformité AI Act (catégorie de risque, obligations), et un audit de data residency selon vos exigences RGPD. Le tout livré sous forme de rapport indépendant.
FrenchBench est-il sponsorisé par OpenAI, Anthropic, Google ou Mistral ?
Non. Aucun partenariat commercial, aucune rémunération vendor, aucun lien d'affiliation. Le seul lien commercial est notre activité de conseil cyber et IA pour des entreprises clientes — ce qui justement nécessite une indépendance éditoriale stricte envers tous les vendors LLM, y compris Mistral AI bien qu'il soit français.
Besoin d'un benchmark personnalisé sur vos données métier ?