Adversarial Machine Learning
iaDéfinition
Discipline étudiant les attaques contre les modèles de machine learning : empoisonnement des données d'entraînement, exemples adversariaux, extraction de modèle et inférence d'appartenance.
Taxonomie des attaques
- Evasion attacks : modifier subtilement une entrée pour tromper le modèle (ex : patch adversarial sur un panneau stop)
- Poisoning attacks : corrompre les données d'entraînement pour biaiser le modèle
- Model extraction : reconstruire un modèle propriétaire via ses réponses API
- Membership inference : déterminer si un échantillon faisait partie des données d'entraînement
Défenses
Adversarial training, differential privacy, robustesse certifiée, monitoring des distributions d'entrée. Le framework MITRE ATLAS cartographie ces attaques.
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis