Prompt Injection
iaDéfinition
Technique d'attaque contre les systèmes d'IA conversationnels consistant à manipuler le prompt pour contourner les instructions du système, extraire des informations confidentielles ou faire exécuter des actions non autorisées.
Types
- Directe : l'utilisateur injecte des instructions malveillantes dans son message
- Indirecte : du contenu malveillant est caché dans les documents fournis au LLM (RAG, emails, pages web)
Défenses
- Validation et sanitization des inputs
- Isolation du system prompt
- Output filtering et guardrails
- Canary tokens dans le contexte
- Monitoring des réponses anormales
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis