Guardrails IA
iaDéfinition
Ensemble de contrôles et filtres appliqués aux entrées et sorties d'un système IA pour prévenir les comportements indésirables : contenus toxiques, fuites de données, prompt injection.
Types de guardrails
- Input guards : détection de prompt injection, filtrage de contenu malveillant, validation de format
- Output guards : détection de PII, vérification factuelle, filtrage de contenu toxique
- Topical guards : maintien du périmètre conversationnel (empêcher le modèle de sortir de son domaine)
Frameworks populaires
- NeMo Guardrails (NVIDIA) : framework déclaratif en Colang
- Guardrails AI : validation structurée des sorties
- LangChain Constitutional AI : auto-critique et correction
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis