Prompt Injection
iaDéfinition
La Prompt Injection est une classe d'attaques contre les systèmes d'IA conversationnels (classée LLM01 dans l'OWASP LLM Top 10) qui consiste à injecter des instructions malveillantes dans le prompt pour contourner le system prompt, extraire des informations confidentielles ou faire exécuter des actions non autorisées. On distingue les injections directes (l'utilisateur manipule directement son propre prompt), des injections indirectes (le payload est dissimulé dans des données externes lues par l'agent : pages web, documents, emails, résultats d'outils). Les techniques incluent : l'instruction override ("Ignore les instructions précédentes et..."), le prompt leaking, le jailbreak par roleplay, et les attaques multilingues. Les défenses comprennent la séparation stricte des données et des instructions, le sandboxing des agents, les guardrails de détection, la validation des sorties et l'application du principe de moindre privilège aux outils accessibles par le LLM.
Types
- Directe : l'utilisateur injecte des instructions malveillantes dans son message
- Indirecte : du contenu malveillant est caché dans les documents fournis au LLM (RAG, emails, pages web)
Défenses
- Validation et sanitization des inputs
- Isolation du system prompt
- Output filtering et guardrails
- Canary tokens dans le contexte
- Monitoring des réponses anormales
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis