Pendant que l'attention de la communauté sécurité se concentre sur les grands modèles de langage (LLMs) comme GPT-4 ou Claude, une autre catégorie de modèles prolifère discrètement dans les infrastructures d'entreprise : les Small Language Models (SLM). Ces modèles compacts — Phi-3 Mini de Microsoft (3,8 milliards de paramètres), Gemma 2B de Google, Llama 3.2 1B de Meta, Mistral 7B — sont déployés directement sur les endpoints, les devices IoT, et les serveurs edge, souvent sans les garde-fous de sécurité qui entourent les LLMs centralisés. Leur accessibilité, leur coût minimal, et leur capacité à fonctionner sans connexion Internet en font des outils attractifs — mais leur sécurité présente des particularités que ni les équipes IA ni les équipes sécurité ne maîtrisent toujours bien. Ce guide analyse les risques de sécurité spécifiques aux SLM, distincts de ceux des grands LLMs, et les stratégies de mitigation adaptées à ces contextes de déploiement.

Pourquoi les SLM Sont Différents des LLMs en Termes de Sécurité

Les Small Language Models partagent certains risques avec les LLMs (hallucinations, prompt injection, biais) mais présentent également des risques spécifiques liés à leurs caractéristiques de déploiement :

Déploiement on-device sans supervision centralisée : Contrairement aux LLMs accessibles via API centrale avec monitoring, les SLM sont déployés directement sur des endpoints, des mobiles, des devices IoT. Chaque instance est une copie autonome qui s'exécute sans surveillance. Les politiques de sécurité, les mises à jour de sécurité, et le monitoring doivent être implémentés à l'échelle de toutes ces instances distribuées — un défi opérationnel considérable.

Surface d'attaque physique : Les SLM déployés sur des devices physiques (laptops, smartphones, devices IoT industriels) peuvent être extraits par un attaquant ayant un accès physique au device. Les poids du modèle, stockés localement, peuvent être reverse-engineered pour comprendre les patterns de détection (si le SLM est utilisé pour la sécurité), extraire des données d'entraînement sensibles via des attaques d'inversion, ou modifier les poids pour insérer un backdoor.

Ressources limitées → Garde-fous réduits : Les SLM sont optimisés pour la performance sur hardware contraint. Les garde-fous de sécurité (filtres de contenu, alignement RLHF, modèles de refus) consomment des ressources qui sont en compétition avec la performance sur ces devices. En pratique, de nombreux SLM déployés in-the-wild ont des garde-fous significativement moins robustes que leurs équivalents LLMs centralisés.

Fine-tuning facilité → Risque accru de dérive : Le fine-tuning d'un SLM (Phi-3, Mistral 7B) sur un dataset spécifique est accessible à des équipes sans expertise ML avancée, sur un matériel standard (GPU grand public). Cette accessibilité facilite les usages légitimes (adaptation à un domaine spécifique) mais aussi les usages malveillants : fine-tuner un SLM pour supprimer ses garde-fous, le spécialiser dans la génération de contenu malveillant, ou lui faire mémoriser des données sensibles confidentielles volées.

Les SLM Non-Alignés : Le Risque Sous-Estimé

L'écosystème Hugging Face héberge des milliers de SLM fine-tunés par des tiers, dont certains ont explicitement supprimé les mécanismes d'alignement (RLHF, Constitutional AI) des modèles de base pour obtenir des modèles sans restrictions de contenu. Ces modèles "uncensored" — parfaitement légaux à télécharger — sont utilisés pour la génération de contenu malveillant (phishing ultra-personnalisé, code malveillant), la création de deepfakes textuels, et l'alimentation de campagnes de désinformation.

Des outils comme Ollama permettent de déployer ces modèles localement en quelques minutes, sur n'importe quel Mac ou PC avec une carte GPU suffisante. Pour un employé malveillant ou un attaquant ayant compromis un endpoint, déployer un SLM non-aligné pour générer du contenu malveillant depuis l'intérieur du périmètre de sécurité de l'organisation est trivial.

La détection de ces déploiements locaux de SLM est un défi : Ollama s'exécute comme un service système standard, les modèles téléchargés ressemblent à des fichiers binaires volumineux, et les inférences locales ne génèrent pas de trafic réseau vers des API externes. Les solutions DLP (Data Loss Prevention) et les outils de contrôle des applications doivent être configurés pour détecter ces outils spécifiques.

Attaques Spécifiques aux SLM

Jailbreaking Plus Facile sur les SLM : Les SLM ont généralement des garde-fous moins robustes que les LLMs à cause de leurs capacités de raisonnement limitées et de leurs ressources d'alignement moindres. Des jailbreaks qui échouent sur GPT-4 peuvent réussir sur des SLM équivalents. Des benchmarks comme HarmBench et AdvBench montrent que les taux de jailbreak réussis sont typiquement 2 à 5 fois supérieurs sur les SLM par rapport aux grands LLMs.

Prompt Injection dans les Contextes Embarqués : Les SLM embarqués dans des applications métier (assistant de productivity, chatbot de support, agent de traitement de documents) traitent souvent des données d'utilisateurs qui peuvent contenir des tentatives de prompt injection. Dans un contexte embarqué, la prompt injection peut permettre d'exfiltrer des données de contexte (autres documents traités, configuration du système), de modifier le comportement de l'application, ou d'accéder à des outils et APIs connectés à l'agent.

Extraction de Données d'Entraînement (Memorization) : Les SLM fine-tunés sur des données propriétaires mémorisent une partie de ces données d'entraînement et peuvent les régurgiter si on les interroge de manière appropriée. Un SLM fine-tuné sur des contrats clients confidentiels peut révéler des extraits de ces contrats si un attaquant formule les bonnes requêtes — une forme de fuite de données qui ne passe par aucun canal réseau traditionnel.

Model Poisoning via Fine-tuning Malveillant : Si le processus de fine-tuning d'un SLM utilise des données external non-vérifiées, un attaquant peut empoisonner le dataset de fine-tuning pour injecter un backdoor dans le modèle spécialisé. Notre analyse des attaques supply chain sur les modèles IA détaille les défenses contre ces vecteurs d'attaque sur les pipelines ML.

Cas d'Usage à Risque : Identifier les Déploiements SLM Critiques

Tous les déploiements de SLM ne présentent pas le même niveau de risque. Les contextes à surveiller en priorité :

SLM pour la Sécurité Embarquée : Des SLM utilisés comme première ligne de détection de menaces (analyse de code pour vulnérabilités, classification de trafic réseau, détection de phishing dans les emails) présentent un risque spécifique : leur contournement permet à un attaquant de passer sous les radars de la détection. Un SLM de détection de phishing contournable par adversarial examples textuels est une vulnérabilité directe dans la chaîne de défense.

SLM dans les Assistants de Productivity Métier : Les assistants IA embarqués dans les suites de productivité (Microsoft 365 Copilot avec modèles locaux, assistants de rédaction d'entreprise) accèdent à des données sensibles — emails, documents contractuels, données financières. Leur compromission via prompt injection peut conduire à l'exfiltration de ces données vers un attaquant qui contrôle des documents malveillants traités par l'assistant.

SLM dans les Environnements Industriels et IoT : Les SLM déployés sur des équipements industriels (pour l'analyse de données de capteurs, la détection d'anomalies opérationnelles) opèrent souvent dans des environnements avec des contraintes de connectivité et de sécurité différentes des environnements IT classiques. La mise à jour sécurisée des poids de modèles sur ces devices, leur monitoring, et leur isolation réseau sont des défis opérationnels spécifiques aux environnements OT/IoT. Notre guide sur la sécurité des agents IA contextualise ces risques dans les architectures d'IA embarquée.

Stratégies de Défense Spécifiques aux SLM

La défense contre les risques SLM requiert des approches spécifiques à leurs caractéristiques de déploiement :

Inventaire et Gouvernance des SLM Déployés : Maintenir un inventaire de tous les SLM déployés dans l'organisation (similaire à l'inventaire des applications) avec leurs usages, leurs données d'entraînement, et leurs accès. Définir une politique d'approbation pour tout nouveau déploiement SLM — incluant une évaluation des risques de sécurité spécifiques au contexte d'usage.

Contrôle des Outils d'Inférence Locale : Détecter et contrôler via les outils de gestion des endpoints (EDR, MDM) les outils d'inférence locale non-autorisés (Ollama, LM Studio, GPT4All). Des politiques d'application allowlisting peuvent bloquer ces outils sur les endpoints gérés, réduisant le risque de SLM non-autorisés déployés par des employés.

Sandboxing des SLM Embarqués : Les SLM utilisés dans des applications métier doivent s'exécuter dans des environnements sandbox avec des limitations strictes sur les appels système, l'accès réseau, et les fichiers accessibles. L'exfiltration de données via un SLM compromis est significativement plus difficile si le sandbox limite ses sorties aux seuls canaux applicatifs légitimes.

Chiffrement des Poids de Modèles : Les poids des SLM déployés sur des devices physiques doivent être chiffrés au repos (via TPM ou software encryption) pour résister aux attaques d'extraction physique. Cette protection est particulièrement importante pour les SLM fine-tunés sur des données propriétaires confidentielles — les poids du modèle contiennent potentiellement des informations extraites du dataset d'entraînement.

Red Teaming des SLM de Sécurité : Les SLM utilisés dans des contextes de détection de menaces doivent être soumis à des tests adversariaux réguliers — tentatives de jailbreak, tests d'adversarial examples textuels, tests de prompt injection. Ces tests valident que le SLM remplit effectivement sa fonction de détection face aux techniques d'évasion réelles. Notre guide sur les biais et vulnérabilités des modèles IA fournit la méthodologie d'évaluation applicable aux SLM.

FAQ : Small Language Models et Sécurité

Un SLM local est-il plus sécurisé qu'un LLM cloud ?

Les deux présentent des profils de risque différents. Un SLM local élimine les risques de confidentialité liés à l'envoi de données vers un cloud externe — les données restent sur l'infrastructure locale. En revanche, il introduit des risques spécifiques : surface d'attaque physique sur le device, garde-fous généralement plus faibles, et défi de maintien (mises à jour sécurité). La réponse dépend du contexte : pour des données ultra-confidentielles dans un environnement physiquement sécurisé, le SLM local peut être préférable. Pour des usages grand public avec des données moins sensibles, un LLM cloud avec des engagements de confidentialité stricts peut être plus sûr.

Comment détecter si des employés utilisent des SLM locaux non-autorisés ?

Les signaux détectables incluent : l'installation de runtimes d'inférence (Ollama écoute sur le port 11434, LM Studio sur 1234), des patterns d'utilisation CPU/GPU inhabituels sur les endpoints, des téléchargements volumineux depuis des registres de modèles (Hugging Face crée des répertoires ~/.cache/huggingface), et des processus système inhabituels (ollama_llama_server, llama.cpp). Les outils EDR avec détection comportementale et les solutions DLP peuvent être configurés pour détecter ces patterns.

L'AI Act s'applique-t-il aux SLM déployés en interne ?

L'AI Act s'applique principalement aux systèmes IA mis sur le marché ou mis en service dans l'UE. Un SLM développé et utilisé exclusivement en interne par une organisation (non commercialisé) peut bénéficier d'exemptions, sauf s'il est utilisé dans des contextes à haut risque (décisions RH, crédit, santé) ou s'il correspond à un "modèle IA à usage général" déployé à grande échelle. La consultation d'un juriste spécialisé en droit du numérique est recommandée pour clarifier l'applicabilité dans un contexte spécifique.

Articles liés : sécurité LLM et agents IA et comparatif LLM open source 2026.

Sources : ENISA AI Cybersecurity | NIST AI Risk Management

Pourquoi les SLM posent des risques différents des LLMs : surface d'attaque réduite mais déploiement massif

Les Small Language Models (SLM) — modèles de langage de 1 à 13 milliards de paramètres environ — présentent un profil de risque radicalement différent de leurs homologues de grande taille. Cette différence est souvent mal comprise : on suppose à tort que les modèles plus petits sont intrinsèquement plus sûrs car moins capables. La réalité est plus nuancée et dans certains aspects plus préoccupante.

La principale différence de risque tient au mode de déploiement. Les LLMs sont typiquement accessibles via des APIs centralisées avec des équipes dédiées à leur sécurité opérationnelle (surveillance des abus, mises à jour de sécurité, revue des outputs). Les SLM sont conçus pour être déployés localement, sur des terminaux, des serveurs edge ou des appareils IoT, sans infrastructure de supervision centralisée. Un SLM déployé dans une application mobile sur des millions de téléphones, ou dans un équipement industriel en service pour 15 ans, échappe aux mécanismes de contrôle centralisés qui protègent les LLMs cloud.

La surface d'attaque des SLM est techniquement plus limitée — un modèle de 3 milliards de paramètres a moins de capacités qu'un modèle de 70 milliards. Mais le déploiement massif et décentralisé crée une surface globale considérablement plus large. Une vulnérabilité affectant un SLM populaire déployé dans des millions d'instances représente un risque d'échelle supérieur à une vulnérabilité dans un LLM accessible uniquement via API.

Par ailleurs, les SLM déployés localement sont souvent utilisés avec des données sensibles qui ne quittent pas l'appareil, précisément pour des raisons de confidentialité. Cette proximité avec les données sensibles sans les protections d'un déploiement cloud (isolation, monitoring, chiffrement des données en transit) crée des risques spécifiques. Un SLM compromis par une mise à jour malveillante de son runtime pourrait exfiltrer des données qui avaient précisément été confiées au modèle local pour rester privées.

Vecteurs d'attaque spécifiques aux SLM on-device : model extraction, inference attacks

Les SLM déployés on-device sont vulnérables à une famille d'attaques qui ne s'appliquent pas aux LLMs accessibles uniquement via API, car l'accès physique ou logiciel au device ouvre des vecteurs d'attaque inédits.

Model extraction (vol de modèle) : lorsqu'un SLM est déployé on-device, ses poids sont stockés dans le système de fichiers de l'appareil, souvent sans protection cryptographique suffisante. Un attaquant ayant accès au système de fichiers (via une application malveillante, une vulnérabilité OS, ou un accès physique) peut extraire les poids du modèle. Cette extraction permet soit de cloner le modèle (vol de propriété intellectuelle), soit de l'analyser pour identifier ses points faibles et construire des entrées adversariales optimisées. Des techniques comme l'analyse des fichiers GGUF, ONNX ou TFLite permettent d'extraire les architectures et les poids sans outillage spécialisé.

Membership inference attacks : ces attaques cherchent à déterminer si un exemple de données spécifique a été utilisé pour entraîner le modèle. Pour un SLM fine-tuné sur des données privées d'une organisation (emails internes, documents confidentiels), une attaque d'inférence de membership permettrait à un attaquant de confirmer si certaines informations confidentielles ont été incluses dans les données d'entraînement, sans accéder directement à ces données.

Inversion attacks : les attaques par inversion cherchent à reconstruire des données d'entraînement depuis les poids du modèle ou depuis ses prédictions. Ces attaques sont particulièrement préoccupantes pour les SLM fine-tunés sur des données médicales, financières ou juridiques, où la reconstruction partielle des données d'entraînement constituerait une violation de confidentialité grave.

Adversarial examples : des entrées spécialement crafted peuvent forcer un SLM à produire des sorties incorrectes ou malveillantes. Pour un SLM utilisé dans un système de contrôle d'accès ou de détection de fraude, des adversarial examples permettant de contourner les décisions du modèle constituent une vulnérabilité critique.

Sécurisation du déploiement SLM : isolation, chiffrement du modèle, attestation

La sécurisation des déploiements SLM on-device requiert une approche multicouche combinant des protections au niveau du modèle, de l'exécution et de l'attestation de l'intégrité.

Chiffrement du modèle au repos : les poids du modèle doivent être chiffrés sur le disque et déchiffrés en mémoire uniquement au moment de l'exécution, avec des clés dérivées d'informations liées au hardware (TPM, Secure Enclave) pour empêcher la portabilité du modèle extrait vers d'autres environnements. Apple's CoreML et Android NNAPI supportent respectivement des mécanismes de protection des modèles liés au Secure Enclave et au TEE (Trusted Execution Environment) Android.

Isolation de l'exécution dans des TEE (Trusted Execution Environments) : les TEE (Intel SGX, ARM TrustZone, AMD SEV) permettent d'exécuter du code dans un environnement isolé du reste du système, protégé même contre les applications disposant de privilèges élevés. L'exécution d'inférences SLM dans un TEE protège les données d'entrée sensibles et les poids du modèle contre les accès non autorisés depuis le système hôte.

Attestation de l'intégrité : des mécanismes d'attestation cryptographique permettent à un serveur distant de vérifier que le SLM s'exécute dans un environnement non compromis, avec les poids non modifiés. Cette attestation est particulièrement importante pour les SLM déployés dans des équipements non maîtrisés (appareils clients, équipements IoT) où l'intégrité physique ne peut pas être garantie.

Isolation réseau : les SLM déployés pour des raisons de confidentialité doivent être configurés pour ne jamais émettre de trafic réseau non autorisé. Des politiques de pare-feu applicatives doivent bloquer toute communication réseau du runtime SLM sauf celles explicitement nécessaires pour les mises à jour de sécurité via des canaux vérifiés.

Cas d'usage à risque : SLM dans les applications mobiles, edge devices, IoT

Certains cas d'usage des SLM présentent des combinaisons de contexte, de données traitées et de contraintes de déploiement qui créent des profils de risque particulièrement élevés nécessitant une attention spéciale.

SLM dans les applications mobiles de santé : les applications de suivi médical, d'assistance au diagnostic ou de gestion des traitements intègrent de plus en plus des SLM pour personnaliser leurs recommandations. Ces modèles ont accès aux données de santé les plus sensibles (pathologies, traitements, données biométriques), sont déployés sur des appareils mobiles avec des niveaux de sécurité variables, et doivent respecter des contraintes réglementaires strictes (RGPD, HDS). La combinaison de l'extrême sensibilité des données et du déploiement décentralisé sur des millions d'appareils hétérogènes crée un profil de risque qui justifie des audits de sécurité rigoureux avant déploiement.

SLM dans les équipements industriels et OT : les équipements de contrôle industriel (PLC, IHM, systèmes SCADA) intègrent progressivement des SLM pour la maintenance prédictive et l'assistance opérationnelle. Ces équipements ont des cycles de vie très longs (10 à 20 ans), reçoivent rarement des mises à jour de sécurité, et opèrent dans des environnements critiques où une compromission peut avoir des conséquences physiques graves. Un SLM compromis dans un équipement de contrôle d'une centrale électrique ou d'un système de traitement de l'eau représente un risque d'une nature radicalement différente d'un SLM compromis dans une application de productivité.

SLM dans les assistants vocaux et dispositifs domotiques : les enceintes connectées et assistants vocaux traitent en permanence des données audio potentiellement sensibles dans les environnements domestiques et professionnels. La compromission du SLM de reconnaissance vocale d'un appareil domotique pourrait permettre une surveillance non consentie ou la manipulation des commandes vocales pour déclencher des actions non souhaitées (ouverture de portes, modification des paramètres de sécurité). La surface d'attaque est amplifiée par le nombre souvent élevé d'appareils identiques déployés chez les consommateurs, rendant une attaque à grande échelle envisageable si une vulnérabilité est découverte dans un modèle populaire.

Points Clés : Small Language Models et Sécurité

  • Les SLM présentent des risques distincts des LLMs : surface d'attaque physique, garde-fous réduits, fine-tuning facilité, déploiement distribué sans supervision
  • Les SLM "uncensored" (alignement supprimé) sont accessibles via Hugging Face + Ollama — risque de déploiement non-autorisé par des employés ou des attaquants
  • Taux de jailbreak 2 à 5x supérieurs sur les SLM vs LLMs — les garde-fous sont structurellement plus faibles sur les modèles compacts
  • Mémorisation des données d'entraînement : les SLM fine-tunés sur des données propriétaires peuvent exfiltrer ces données si interrogés de manière ciblée
  • Défenses prioritaires : inventaire des SLM déployés, contrôle des outils d'inférence locale, sandboxing, chiffrement des poids de modèles
  • Détecter les SLM locaux non-autorisés : surveiller le port 11434 (Ollama), les patterns CPU/GPU inhabituels, et les téléchargements Hugging Face