Adversarial Machine Learning
iaDéfinition
L'Adversarial Machine Learning est la discipline étudiant les vulnérabilités des systèmes d'apprentissage automatique face aux attaques intentionnelles. Les quatre catégories d'attaques principales sont : l'empoisonnement de données (data poisoning, corruption des données d'entraînement), les exemples adversariaux (perturbations imperceptibles qui trompent le modèle au moment de l'inférence), l'extraction de modèle (model stealing, reconstitution du modèle via des requêtes), et les attaques d'inférence d'appartenance (membership inference, identification des données d'entraînement). Les défenses incluent l'adversarial training, la randomized smoothing, la distillation défensive et la détection d'anomalies sur les entrées. Le framework MITRE ATLAS répertorie ces techniques dans un ATT&CK dédié aux systèmes ML. En production, les détecteurs de fraude, les systèmes de reconnaissance faciale et les outils de cybersécurité basés sur l'IA sont particulièrement exposés.
Taxonomie des attaques
- Evasion attacks : modifier subtilement une entrée pour tromper le modèle (ex : patch adversarial sur un panneau stop)
- Poisoning attacks : corrompre les données d'entraînement pour biaiser le modèle
- Model extraction : reconstruire un modèle propriétaire via ses réponses API
- Membership inference : déterminer si un échantillon faisait partie des données d'entraînement
Défenses
Adversarial training, differential privacy, robustesse certifiée, monitoring des distributions d'entrée. Le framework MITRE ATLAS cartographie ces attaques.
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis