En bref

  • Le CAISI américain a signé le 5 mai 2026 des accords avec Google DeepMind, Microsoft et xAI pour évaluer leurs modèles avant la mise sur le marché.
  • Les tests porteront sur la biosécurité, la cybersécurité et les capacités à risque, dans des environnements classifiés.
  • Les cinq grands laboratoires américains (OpenAI, Anthropic, Google, Microsoft, xAI) sont désormais sous évaluation pré-déploiement du gouvernement.

Ce qui s'est passé

Le NIST a annoncé le 5 mai 2026 que le Center for AI Standards and Innovation, plus connu sous l'acronyme CAISI, vient de signer trois nouveaux accords de coopération avec Google DeepMind, Microsoft et xAI. Ces conventions étendent le programme d'évaluation pré-déploiement aux trois derniers grands laboratoires d'IA américains qui n'étaient pas encore couverts, complétant ainsi un dispositif lancé en août 2024 avec OpenAI et Anthropic.

Concrètement, les trois entreprises s'engagent à donner au CAISI un accès anticipé à leurs modèles frontière avant qu'ils ne soient rendus publics. Les évaluateurs gouvernementaux pourront étudier les capacités à risque dans des environnements classifiés et formuler des recommandations sur les garde-fous à mettre en place. Les accords couvrent également une phase d'assessment post-déploiement, censée valider que les ajustements demandés ont bien été intégrés en production.

Selon Microsoft, qui a publié sur son blog On the Issues une note signée Brad Smith, le périmètre couvre les capacités cyber-offensives, la facilitation potentielle d'attaques biologiques ou chimiques, et l'autonomie des agents. Le test d'un modèle peut comprendre des évaluations en environnement isolé, des exercices red team conduits par des équipes du CAISI et des comparaisons avec une base de référence interne au gouvernement.

Le CAISI précise dans son communiqué qu'il a déjà conduit plus de 40 évaluations depuis sa création, y compris sur des modèles encore non publiés. Le centre, rattaché au NIST au sein du département du Commerce, fonctionne comme un pendant américain de l'AI Security Institute britannique, avec qui il a signé un accord de partage des résultats en 2025. Les agences britanniques et américaines synchronisent désormais leurs benchmarks, leurs jeux de prompts adversaires et certaines équipes red team.

L'annonce intervient sous l'impulsion directe de la secrétaire au Commerce Howard Lutnick, qui a redéfini la mission du CAISI en début d'année dans le cadre du document America's AI Action Plan. Les accords initiaux signés sous la précédente administration ont été renégociés pour intégrer de nouvelles obligations, dont l'évaluation systématique des risques de prolifération militaire et un dialogue continu avec le National Security Council.

Le contexte politique est tendu. La directrice de cabinet de la Maison-Blanche Susie Wiles, le secrétaire au Trésor Scott Bessent et le directeur national de la cybersécurité Sean Cairncross se sont impliqués personnellement dans les discussions, après qu'Anthropic a annoncé en avril que son modèle Mythos était particulièrement performant pour identifier des vulnérabilités dans les systèmes critiques. Cette annonce a alarmé les régulateurs des secteurs banque, énergie et eau, à un moment où Anthropic restait par ailleurs exclue de l'accord cadre de 200 millions de dollars signé entre le Pentagone et sept autres laboratoires.

Les trois entreprises signataires ont publiquement salué l'accord. Microsoft parle d'un « modèle de coopération volontaire qui peut éviter une régulation par défaut », Google DeepMind insiste sur la « complémentarité avec les garde-fous internes » et xAI souligne que la convention « valide la maturité de Grok 4 et Grok 5 ». OpenAI et Anthropic, déjà sous accord depuis 2024, ont fait savoir que leurs propres conventions étaient en cours de renégociation pour s'aligner sur le nouveau standard.

Selon des éléments rapportés par The Hill et Nextgov/FCW, les évaluations couvrent également la robustesse des modèles face aux attaques par injection de prompt, leur résistance aux tentatives d'exfiltration de données et la qualité de leurs garde-fous lorsqu'ils sont utilisés via des agents autonomes. Le CAISI documente publiquement la méthodologie générale mais conserve secret le détail des prompts et scénarios utilisés.

Pourquoi c'est important

Cette extension du programme d'évaluation marque un tournant dans la régulation américaine de l'IA. Jusqu'ici, le pays s'appuyait principalement sur des engagements volontaires épisodiques signés en 2023 sous la précédente administration, sans mécanisme de vérification continu. Le passage à un dispositif structurel couvrant les cinq grands laboratoires américains, avec des phases pré et post-déploiement, rapproche le modèle américain du cadre européen défini par l'AI Act, tout en évitant la voie législative. Pour les entreprises clientes, cela signifie qu'à terme tous les modèles frontière disponibles sur le marché américain auront été évalués sur leurs capacités cyber et biologiques avant publication, ce qui crée un nouveau standard implicite de due diligence.

Le contraste avec la posture du Pentagone est frappant. Le 1er mai, le département de la Défense a signé des accords avec sept entreprises d'IA pour ses systèmes classifiés, mais a explicitement écarté Anthropic, justifiant ce choix par des considérations contractuelles. La même semaine, le CAISI ouvre son programme d'évaluation à toutes les entreprises, Anthropic incluse, dans une logique strictement civile. La distinction entre les usages militaires et l'évaluation gouvernementale structurelle des capacités prend forme.

Cette mécanique d'évaluation pose néanmoins des questions sensibles pour les entreprises non américaines. Mistral AI, Cohere ou Aleph Alpha n'ont pas signé d'accord similaire et se retrouvent de fait hors du périmètre du CAISI. Pour les acheteurs européens soumis à NIS2 et à l'AI Act, l'absence d'évaluation gouvernementale comparable pourrait peser sur les décisions d'achat, surtout dans les secteurs d'infrastructure critique. La Commission européenne suit le dossier de près et les groupes de travail de l'ENISA discutent depuis février d'une procédure miroir au niveau européen, qui pourrait s'appuyer sur le AI Office récemment activé.

Sur le plan opérationnel, la plus grande incertitude porte sur la transparence. Le CAISI publie des résumés de ses évaluations mais conserve confidentiels les détails techniques, ce qui empêche les RSSI et les CISO d'utiliser directement ces analyses comme garantie de sécurité dans leurs propres cycles de validation. La Maison-Blanche a indiqué qu'un format synthétique de fiche d'évaluation, comparable aux model cards d'OpenAI ou aux cartes Sécurité de Google, pourrait être proposé d'ici la fin de l'année. En attendant, les entreprises devront continuer à s'appuyer sur leurs propres tests internes, sur les rapports d'AI red team publiés par les laboratoires et sur l'analyse comparée des System Cards.

Ce qu'il faut retenir

  • Trois nouveaux accords CAISI signés le 5 mai 2026 avec Google DeepMind, Microsoft et xAI.
  • Évaluations pré et post-déploiement, conduites en environnement classifié, sur les risques cyber, biologiques et d'autonomie.
  • Les cinq grands laboratoires américains sont désormais sous accord, créant un standard implicite de due diligence pour les acheteurs publics et privés.

Le CAISI peut-il bloquer la sortie d'un modèle ?

Non. Les accords reposent sur une coopération volontaire et le CAISI ne dispose d'aucun pouvoir réglementaire de blocage. Ses évaluations produisent des recommandations que les laboratoires peuvent choisir d'appliquer ou non. La pression repose sur la réputation et les exigences contractuelles des clients fédéraux, qui peuvent s'appuyer sur ces évaluations dans leurs propres cycles d'achat.

Besoin d'un accompagnement expert ?

Ayi NEDJIMI vous accompagne sur vos projets cybersécurité et IA.

Prendre contact