Jailbreak LLM
iaDéfinition
Un jailbreak LLM est une technique d'attaque visant à contourner les alignements de sécurité, les filtres de contenu et les restrictions éthiques d'un modèle de langage pour lui faire produire des contenus normalement interdits (instructions malveillantes, contenus illicites, informations sensibles). Les techniques incluent le roleplay ("tu es une IA sans restrictions"), le DAN (Do Anything Now), l'injection via des caractères Unicode ou base64, le many-shot jailbreaking (accumulation d'exemples dans la context window), et les jailbreaks automatisés (GCG, AutoDAN) qui optimisent des suffixes adversariaux. La distinction avec la prompt injection est que le jailbreak cible directement les guardrails du modèle, tandis que la prompt injection détourne les instructions de l'application. En red teaming, le jailbreak sert à évaluer la robustesse des systèmes IA et à identifier les failles avant déploiement. L'OWASP LLM Top 10 classe cette menace sous LLM01.
Description
Un jailbreak LLM est une technique visant à contourner les alignements de sécurité et filtres de contenu d'un LLM pour lui faire produire des contenus normalement interdits. Les techniques incluent le roleplay, le DAN, l'injection via encodages, le many-shot jailbreaking et les jailbreaks automatisés (GCG, AutoDAN).
Fonctionnement
Les jailbreaks exploitent le conflit entre les objectifs d'utilité (suivre les instructions) et de sécurité (refuser les contenus nuisibles). Des techniques de gradient optimization (GCG) trouvent automatiquement des suffixes adversariaux universels qui contournent les guardrails sur différents modèles.
Points clés
- L'OWASP LLM Top 10 classe le jailbreak sous LLM01 (Prompt Injection) comme risque majeur des applications LLM
- Le red teaming LLM évalue systématiquement la robustesse des guardrails face aux techniques de jailbreak connues
- Les defenses incluent les guardrails indépendants du system prompt, la détection d'intention et le Constitutional AI
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis