Data Poisoning
iaDéfinition
Attaque corrompant les données d'entraînement d'un modèle IA pour introduire des biais, des backdoors ou dégrader ses performances.
Fonctionnement technique
Le Data Poisoning est une attaque visant les données d'entraînement d'un modèle d'intelligence artificielle pour altérer son comportement de manière ciblée. L'attaquant introduit des exemples malveillants dans le jeu de données d'entraînement, créant des associations erronées que le modèle apprend et reproduit en production. C'est une attaque sur l'intégrité du pipeline ML, intervenant en amont du déploiement.
Les attaques de poisoning par porte dérobée (backdoor) introduisent un trigger pattern : le modèle se comporte normalement sauf en présence d'un déclencheur spécifique. Par exemple, un modèle de classification d'images empoisonné classe correctement toutes les images, sauf celles contenant un pixel pattern spécifique qui déclenche une classification erronée choisie par l'attaquant.
Les attaques de poisoning par dégradation réduisent la performance globale du modèle en introduisant du bruit ciblé dans les données. Les attaques de poisoning par manipulation des labels (label flipping) inversent les étiquettes d'un sous-ensemble des données d'entraînement. Pour les LLM, l'empoisonnement peut cibler les données de pre-training (web scraping), de fine-tuning (datasets publics) ou de RAG (documents indexés).
Cas d'usage
En 2023, des chercheurs ont démontré qu'en empoisonnant 0,01% des données d'entraînement d'un modèle de langage, ils pouvaient introduire des backdoors activables par des phrases spécifiques. Des packages PyPI/npm malveillants ont été utilisés pour empoisonner les données de code utilisées pour entraîner des modèles de génération de code (Copilot, CodeWhisperer).
Dans les pipelines RAG, le data poisoning est plus accessible : un attaquant qui parvient à insérer des documents malveillants dans le corpus indexé (wiki interne, base de connaissances) peut influencer les réponses du chatbot. Les systèmes de recommandation sont ciblés par le « shilling attack » où des faux profils et faux avis manipulent les recommandations.
Outils et implémentation
ART (Adversarial Robustness Toolbox, IBM) fournit des implémentations d'attaques et de défenses de poisoning pour les principaux frameworks ML. Backdoors101 est un benchmark de recherche pour les attaques backdoor. CleanLab détecte les erreurs de labels et les données aberrantes dans les datasets d'entraînement, aidant à identifier le poisoning.
DataPerf évalue la qualité des données d'entraînement avec des benchmarks standardisés. Deepchecks valide l'intégrité des données et détecte les anomalies avant l'entraînement. Great Expectations implémente des tests de qualité des données automatisés dans les pipelines ML. Nightfall et Presidio détectent les PII dans les données d'entraînement.
Défense / Bonnes pratiques
La première ligne de défense est la validation rigoureuse des données d'entraînement. Implémentez des contrôles de qualité automatisés : détection d'anomalies statistiques, vérification de la distribution des labels, identification des doublons suspects et filtrage des données aberrantes. Documentez la provenance (data lineage) de chaque source de données et n'utilisez que des sources vérifiées.
Pour les datasets publics et les données web scrapées, appliquez des filtres de nettoyage multi-niveaux : déduplication, détection de contenu synthétique, vérification de cohérence et validation manuelle d'échantillons aléatoires. Implémentez des mécanismes de détection de backdoor : analyse de l'activation des neurones (Neural Cleanse), pruning sélectif et distillation du modèle.
Pour les pipelines RAG, contrôlez strictement l'accès en écriture aux sources de données indexées. Implémentez une validation de contenu avant l'indexation et surveillez les modifications suspectes. Versionnez les corpus de données et les modèles pour permettre le rollback en cas de détection de poisoning. Testez régulièrement les modèles contre des benchmarks de robustesse avant et après le retraining.
Articles associés
Voir nos articles détaillés sur ce sujet.
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis