\\n\\n \\n \\n \\n \\n \\n Sommaire\\n \\n \\n \\n\\n \\n \\n\\n \\n \\n\\n Introduction \\n\\n\\n\\n L'intelligence artificielle évolue à une vitesse fulgurante, apportant avec elle un vocabulaire technique de plus en plus riche et complexe. Pour les développeurs, data scientists et décideurs qui souhaitent maîtriser l'IA moderne, comprendre ces termes n'est pas optionnel : c'est essentiel. Glossaire IA 2025 : 50 termes essentiels expliqués avec exemples. Embeddings, RAG, transformers, LLM, bases vectorielles. Guide complet. Ce guide couvre les aspects essentiels de ia glossaire 100 termes essentiels : méthodologie structurée, outils recommandés et retours d'expérience opérationnels. Les professionnels y trouveront des recommandations directement applicables.
\\n\\n Ce glossaire IA rassemble les 50 termes les plus importants que vous rencontrerez dans vos projets d'intelligence artificielle, du machine learning classique aux architectures LLM les plus avancées. Que vous travailliez sur des embeddings , des bases vectorielles ou du RAG , ce guide vous servira de référence.
\\n\\n \\n
Comment utiliser ce glossaire \\n
Les termes sont organisés par thématique pour faciliter votre apprentissage progressif. Chaque définition inclut :
\\n
\\n Explication claire accessible aux débutants \\n Exemples concrets et cas d'usage réels en production \\n Ressources externes : documentation officielle, papers académiques \\n Comparaisons pour comprendre les différences entre concepts similaires \\n Liens vers articles approfondis pour aller plus loin \\n \\n
\\n\\n \\nNotre avis d'expert L'IA responsable n'est pas un luxe — c'est une nécessité opérationnelle. Nos audits révèlent que 70% des déploiements IA en entreprise manquent de mécanismes de détection des biais et de garde-fous contre les injections de prompt. Il est temps d'intégrer la sécurité dès la conception des pipelines ML.
\\n\\nComment garantir que vos modèles de machine learning ne deviennent pas des vecteurs d'attaque ?
\\n1. Termes Fondamentaux de l'IA Concepts de Base du Machine Learning \\n\\n \\n
1. Intelligence Artificielle (IA / AI) \\n
Définition : Discipline informatique visant à créer des systèmes capables d'effectuer des tâches nécessitant normalement l'intelligence humaine : raisonnement, apprentissage, perception, compréhension du langage naturel, résolution de problèmes complexes.
\\n\\n
Exemples concrets en production :
\\n
\\n ChatGPT / Claude : Génération de texte, assistance à la programmation, analyse de documents \\n Systèmes de recommandation : Netflix (films), Spotify (musique), Amazon (produits) \\n Reconnaissance faciale : Déverrouillage de smartphones (Face ID), contrôle d'accès sécurisé \\n Diagnostic médical : Détection de cancers sur imagerie médicale (meilleure précision que certains radiologues) \\n Véhicules autonomes : Tesla Autopilot, Waymo (Google) \\n \\n\\n
Histoire clé : Le terme "Intelligence Artificielle" a été créé en 1956 lors de la conférence de Dartmouth par John McCarthy, Marvin Minsky, Claude Shannon et Nathan Rochester.
\\n\\n
Ressources officielles :
\\n
\\n Encyclopedia Britannica - AI History \\n ArXiv - AI Papers \\n \\n
\\n\\n \\n
2. Machine Learning (ML) \\n
Définition : Sous-domaine de l'IA où les algorithmes apprennent à partir de données sans être explicitement programmés pour chaque cas. Le système détecte des patterns et améliore automatiquement ses performances avec l'expérience.
\\n\\n
Types principaux :
\\n
\\n Apprentissage supervisé : Données étiquetées (ex: classifier emails spam/non-spam avec exemples annotés) \\n Apprentissage non supervisé : Découverte de patterns sans étiquettes (ex: segmentation clients) \\n Apprentissage par renforcement : Agent apprend par essais-erreurs avec récompenses (ex: AlphaGo, robots) \\n \\n\\n
Cas d'usage réels :
\\n
\\n Détection de spam : Gmail filtre 99.9% des spams grâce au ML (500M utilisateurs protégés) \\n Prédiction de prix : Airbnb optimise automatiquement les prix selon 70+ variables \\n Classification d'images : Google Photos organise vos photos par personnes, lieux, objets automatiquement \\n Détection de fraude : PayPal analyse 19M transactions/jour en temps réel \\n \\n\\n
Différence avec programmation classique :
\\n
\\n
Programmation traditionnelle : Règles → Données → Résultats
\\n
Machine Learning : Données + Résultats → Modèle découvre les règles
\\n
\\n\\n
Ressource officielle : Google ML Crash Course
\\n\\n\\n
\\n\\n \\n
3. Deep Learning (Apprentissage Profond) \\n
Définition : Sous-ensemble du ML utilisant des réseaux de neurones artificiels à plusieurs couches (parfois des centaines) pour traiter des données complexes et non structurées. Inspiré du fonctionnement des neurones biologiques du cerveau.
\\n\\n
Pourquoi "profond" : Les réseaux contiennent de nombreuses couches cachées (hidden layers) - parfois 100+ couches dans les architectures modernes comme ResNet-152.
\\n\\n
Applications transformateurs :
\\n
\\n Vision par ordinateur : Reconnaissance d'objets en temps réel (YOLO), diagnostic médical, véhicules autonomes \\n NLP : GPT-4, traduction automatique (Google Translate traite 100+ langues), chatbots intelligents \\n Génération d'images : Stable Diffusion, DALL-E 3, Midjourney (créent des images photoréalistes depuis du texte) \\n Synthèse vocale : Text-to-Speech ultra-réaliste (ElevenLabs, Google WaveNet) \\n Jeux vidéo / IA : AlphaGo a battu le champion du monde de Go (10^170 positions possibles) \\n \\n\\n
Breakthrough historique : En 2012, AlexNet (réseau convolutif profond) a réduit l'erreur de 26% à 15% sur ImageNet, marquant le début de la révolution Deep Learning.
\\n
Ressources Techniques et Outils Applications Pratiques de l'IA \\n\\n\\n
Ressources techniques :
\\n
\\n Deep Learning Book (Goodfellow, Bengio, Courville) \\n PyTorch Tutorials \\n TensorFlow Tutorials \\n \\n
\\n\\n \\n
4. NLP (Natural Language Processing) \\n
Définition : Traitement automatique du langage naturel. Branche de l'IA permettant aux machines de comprendre, interpréter, manipuler et générer du langage humain (texte et parole) de manière contextuelle et cohérente.
\\n\\n
Tâches principales :
\\n
\\n Analyse de sentiment : Déterminer si un avis est positif/négatif (ex: monitoring réseaux sociaux pour les marques) \\n Traduction automatique : Google Translate, DeepL (140+ paires de langues) \\n Résumé de texte : Condenser des documents longs automatiquement \\n Chatbots / Assistants : ChatGPT, Alexa, Siri, Google Assistant \\n Named Entity Recognition (NER) : Extraire noms de personnes, lieux, organisations \\n Question Answering : Répondre à des questions depuis des documents \\n \\n\\n
Cas d'usage business :
\\n
\\n Service client automatisé : Zendesk utilise le NLP pour router 60% des tickets automatiquement \\n Analyse de contrats : Extraction automatique de clauses juridiques (gain de 80% de temps) \\n Monitoring média : Analyse en temps réel de millions d'articles pour détecter des tendances \\n \\n\\n
Évolution majeure : L'arrivée des transformers en 2017 a transforme le NLP, permettant de passer de modèles spécialisés à des LLM généralistes comme GPT.
\\n\\n\\n
Cas concret En 2023, des chercheurs ont démontré qu'il était possible de manipuler Bing Chat (Copilot) pour exfiltrer des données personnelles via des techniques d'injection de prompt indirecte. Cette attaque exploitait la capacité du LLM à accéder aux résultats de recherche web, transformant un assistant en vecteur d'exfiltration.
\\n\\n\\n
Ressource académique : Speech and Language Processing (Stanford)
\\n
\\n\\n \\n
5. LLM (Large Language Model) \\n
Définition : Modèle de langage de grande taille (milliards/trillions de paramètres) entraîné sur d'énormes corpus de texte issus d'Internet. Capable de comprendre le contexte, générer du texte cohérent, raisonner et effectuer des tâches complexes sans entraînement spécifique (few-shot learning).
\\n\\n
Principaux LLM et leurs spécificités :
\\n
\\n \\n \\n Modèle \\n Créateur \\n Paramètres (estimés) \\n Contexte max \\n Spécificité \\n \\n \\n \\n \\n GPT-4 \\n OpenAI \\n ~1.7T \\n 128K tokens \\n Multimodal (texte + images), raisonnement avancé \\n \\n \\n Claude 3 Opus \\n Anthropic \\n Non divulgué \\n 200K tokens \\n Long contexte, alignement sécurité \\n \\n \\n Gemini 1.5 Pro \\n Google \\n Non divulgué \\n 1M tokens \\n Contexte extrême, multimodal natif \\n \\n \\n LLaMA 3 \\n Meta \\n 8B à 70B \\n 8K tokens \\n Open-source, performant, self-hostable \\n \\n \\n Mistral Large \\n Mistral AI \\n ~123B \\n 32K tokens \\n Européen, multilingue, efficace \\n \\n \\n
\\n\\n
Coût d'entraînement : GPT-4 a coûté environ 100 millions de dollars à entraîner (estimation), nécessitant des clusters de milliers de GPU A100/H100 pendant plusieurs mois.
\\n\\n
Données d'entraînement : GPT-3 a été entraîné sur ~45TB de texte compressé (570GB après filtrage), soit l'équivalent de millions de livres.
\\n\\n
Capacités émergentes : Les LLM développent spontanément des capacités non explicitement enseignées : raisonnement logique, arithmétique, génération de code, compréhension multilingue.
\\n\\n
Papers fondateurs :
\\n
\\n GPT-3 Paper (Brown et al., 2020) \\n GPT-4 Technical Report \\n LLaMA Paper (Touvron et al., 2023) \\n \\n
\\n\\n Modèles Génératifs et Applications Techniques de Génération Avancées \\n\\n \\n
6. IA Générative (Generative AI) \\n
Définition : Systèmes d'IA capables de créer du nouveau contenu original et réaliste (jamais vu pendant l'entraînement) : texte, images, audio, code, vidéo, modèles 3D.
\\n\\n
Technologies principales par modalité :
\\n
\\n Texte : GPT-4, Claude 3, Gemini (génèrent articles, code, emails...) \\n Images : DALL-E 3, Midjourney, Stable Diffusion (création depuis descriptions textuelles) \\n Audio/Musique : Suno AI, Udio (compositions musicales complètes), ElevenLabs (voix synthétique) \\n Vidéo : Runway Gen-2, Pika Labs (génération vidéo depuis texte/image) \\n Code : GitHub Copilot, Cursor (assistance programmation en temps réel) \\n 3D : Point-E, Shap-E (modèles 3D depuis texte) \\n \\n\\n
Impact business mesurable :
\\n\\n\\n
Avez-vous évalué les risques d'injection de prompt sur vos systèmes d'IA en production ?
\\n\\n\\n
\\n Productivité développeurs : +55% avec GitHub Copilot (source: étude GitHub 2023) \\n Création de contenu : Réduction de 80% du temps de production (design, copywriting) \\n Service client : Chatbots GPT réduisent les tickets de 40% \\n Marketing : Génération illimitée de variations publicitaires pour A/B testing \\n \\n\\n
Enjeux éthiques : Deepfakes, droits d'auteur (modèles entraînés sur œuvres existantes), désinformation, remplacement d'emplois créatifs.
\\n\\n
Ressource : OpenAI Research Blog
\\n
\\n\\n \\n
7. GAN (Generative Adversarial Network) \\n
Définition : Architecture de deep learning innovante avec deux réseaux de neurones en compétition adversariale : un générateur crée du contenu (fausses images), un discriminateur essaie de distinguer le vrai du faux. Ils s'entraînent mutuellement jusqu'à ce que le générateur produise du contenu indiscernable du réel.
\\n\\n
Analogie : C'est comme un faussaire (générateur) qui apprend à créer de faux billets pendant qu'un expert (discriminateur) apprend à les détecter. Chacun force l'autre à s'améliorer.
\\n\\n
Histoire : Inventé par Ian Goodfellow en 2014 (alors à l'Université de Montréal). Yann LeCun (pionnier du deep learning) a qualifié les GANs de "idée la plus intéressante des 10 dernières années en ML".
\\n\\n
Applications concrètes :
\\n
\\n StyleGAN : Génération de visages humains photoréalistes inexistants (thispersondoesnotexist.com) \\n Deepfakes : Remplacement de visages dans vidéos (usage légitime : doublage cinéma, effets spéciaux) \\n Augmentation de données : Créer des exemples synthétiques pour datasets médicaux (rare diseases) \\n Super-résolution : Améliorer la qualité d'images basse résolution \\n Image-to-image : Transformer croquis en photo réaliste, jour → nuit, etc. \\n \\n\\n
Variantes célèbres : StyleGAN (NVIDIA), CycleGAN (traduction image non supervisée), Pix2Pix, DCGAN.
\\n\\n
Évolution : Les GANs ont été partiellement remplacés par les modèles de diffusion (Stable Diffusion, DALL-E 3) qui sont plus stables à entraîner et produisent des résultats supérieurs.
\\n\\n
Paper original : Generative Adversarial Networks (Goodfellow et al., 2014)
\\n
\\n\\n 2. Architecture & Modèles \\n\\n \\n
8. Transformer \\n
Définition : Architecture de réseau de neurones changant (2017) utilisant le mécanisme d'attention pour traiter des séquences (texte, images, audio) en parallèle plutôt que séquentiellement. Base architecturale de tous les LLM modernes (GPT, BERT, Claude...).
\\n\\n
Innovation clé : Contrairement aux RNN/LSTM qui traitent le texte mot par mot séquentiellement, les transformers analysent tous les mots simultanément en calculant leurs relations mutuelles via l'attention. Cela permet :
\\n
\\n Parallélisation massive : Entraînement 10-100x plus rapide sur GPU \\n Longues dépendances : Capture des relations entre mots distants (début ↔ fin de texte) \\n Scalabilité : Performance augmente avec la taille (contrairement aux architectures précédentes) \\n \\n\\n
Composants principaux :
\\n
\\n Multi-Head Attention : Analyse les relations entre tous les tokens simultanément \\n Feed-Forward Networks : Transformations non-linéaires \\n Positional Encoding : Encodage de la position des mots (car traités en parallèle) \\n Layer Normalization : Stabilisation de l'entraînement \\n \\n\\n
Variantes majeures :
\\n
\\n \\n \\n Architecture \\n Type \\n Utilisation \\n Exemples \\n \\n \\n \\n \\n Encoder-only \\n Bidirectionnel \\n Compréhension (classification, NER) \\n BERT, RoBERTa \\n \\n \\n Decoder-only \\n Autoregressif \\n Génération de texte \\n GPT, LLaMA, Mistral \\n \\n \\n Encoder-Decoder \\n Hybride \\n Traduction, résumé \\n T5, BART, mT5 \\n \\n \\n
\\n\\n
Impact historique : Le paper "Attention is All You Need" (Vaswani et al., Google Brain, 2017) est le paper le plus cité en IA (100,000+ citations). Il a déclenché la révolution actuelle des LLM.
\\n\\n
Applications au-delà du NLP :
\\n
\\n Vision Transformers (ViT) : Images (surpasse les CNN sur ImageNet) \\n Audio : Whisper (transcription speech-to-text), MusicGen \\n Multimodal : CLIP, GPT-4 Vision (texte + images) \\n Protéines : AlphaFold 2 (prédiction de structure protéique) \\n \\n\\n
Ressources :
\\n
\\n
\\n\\n \\n
9. Attention Mechanism (Mécanisme d'Attention) \\n
Définition : Mécanisme fondamental permettant au modèle de se concentrer dynamiquement sur les parties les plus pertinentes de l'entrée lors du traitement, en calculant des scores d'importance entre tous les éléments. C'est le cœur des transformers.
\\n\\n
Analogie simple : Quand vous lisez "La tour Eiffel, construite en 1889, est à Paris ", pour répondre à "Où est la tour Eiffel ?", votre cerveau attentionne automatiquement sur "Paris". Le mécanisme d'attention fait la même chose mathématiquement.
\\n\\n
Fonctionnement technique (simplifié) :
\\n
\\n
1. Query (Q) : "Qu'est-ce que je cherche ?" (le mot actuel)
\\n
2. Key (K) : "Qu'est-ce que je contiens ?" (chaque mot)
\\n
3. Value (V) : "Quelle information j'apporte ?" (contenu de chaque mot)
\\n
4. Score : Calcul de similarité Q·K pour déterminer l'importance de chaque mot
\\n
\\n\\n
Types d'attention :
\\n
\\n Self-Attention : Chaque mot analyse sa relation avec tous les autres mots de la phrase ("Attention" dans "Attention is All You Need") \\n Multi-Head Attention : Plusieurs mécanismes d'attention en parallèle, chacun apprenant différents types de relations (syntaxe, sémantique, références...). GPT-3 utilise 96 heads ! \\n Cross-Attention : Attention entre deux séquences différentes (ex: texte source ↔ traduction) \\n Masked Attention : Empêche de regarder les mots futurs (utile pour génération autogressive) \\n \\n\\n
Exemple visuel : Pour la phrase "The animal didn't cross the street because it was too tired", l'attention sur le mot "it " montre une forte activation vers "animal " (pas "street"), résolvant l'ambiguïté pronominale.
\\n\\n
Avantages vs RNN :
\\n\\n\\n
\\n Parallélisation : Tous les tokens traités simultanément (vs séquentiel RNN) \\n Longues dépendances : Pas de dégradation de signal sur longues distances \\n Interprétabilité : Les scores d'attention peuvent être visualisés \\n \\n\\n
Coût computationnel : L'attention est en O(n²) par rapport à la longueur de séquence, c'est pourquoi les LLM ont des limites de contexte (ex: 128K tokens pour GPT-4). Des variantes efficaces existent : Sparse Attention, Flash Attention, Linear Attention.
\\n\\n
Ressource : Attention? Attention! (Lilian Weng)
\\n
\\n\\n \\n
10. Token \\n
Définition : Unité atomique de texte traitée par un LLM. Ce n'est ni exactement un mot, ni un caractère, mais une sous-unité linguistique optimisée. Un token peut être un mot entier, une partie de mot (sous-mot), un caractère, un symbole, voire un espace.
\\n\\n
Pourquoi des tokens plutôt que des mots ?
\\n
\\n Vocabulaire compact : 50K tokens vs millions de mots possibles \\n Mots rares : "anticonstitutionnellement" découpé en sous-mots connus \\n Multilingue : Même tokenizer pour 100+ langues \\n Ponctuation & code : Gestion unifiée \\n \\n\\n
Exemples de tokenization (GPT tokenizer) :
\\n
\\n
"Hello world" → ["Hello", " world"] (2 tokens)
\\n
"Intelligence artificielle" → ["Intel", "ligence", " art", "ific", "ielle"] (5 tokens)
\\n
"ChatGPT" → ["Chat", "G", "PT"] (3 tokens)
\\n
"42" → ["42"] (1 token)
\\n
\\n\\n
Règle empirique : En anglais, 1 token ≈ 0.75 mots (4 tokens ≈ 3 mots). En français, 1 token ≈ 0.6 mots (plus de découpage car moins représenté dans l'entraînement).
\\n\\n
Algorithmes de tokenization :
\\n
\\n BPE (Byte Pair Encoding) : Utilisé par GPT, fusionne itérativement les paires fréquentes \\n WordPiece : Utilisé par BERT, variante de BPE \\n SentencePiece : Utilisé par LLaMA, Mistral, indépendant de la langue \\n \\n\\n
Impact sur les limites de contexte :
\\n
\\n \\n \\n Modèle \\n Contexte max \\n Mots approx. (EN) \\n Équivalent \\n \\n \\n \\n \\n GPT-3.5 \\n 4K tokens \\n ~3K mots \\n 6 pages \\n \\n \\n GPT-4 \\n 128K tokens \\n ~96K mots \\n ~200 pages \\n \\n \\n Claude 3 \\n 200K tokens \\n ~150K mots \\n ~300 pages \\n \\n \\n Gemini 1.5 Pro \\n 1M tokens \\n ~750K mots \\n ~1500 pages \\n \\n \\n
\\n\\n
Coût : Les API LLM facturent au token. Ex: GPT-4 = $0.03/1K tokens input. Optimiser sa tokenization = réduire les coûts.
\\n\\n
Outil pratique : OpenAI Tokenizer (visualiser le découpage)
\\n
\\n\\n \\n
11. Embedding (Plongement Lexical / Vectoriel) \\n
Définition : Représentation numérique d'un mot, phrase, document ou tout élément (image, audio...) sous forme de vecteur dense dans un espace multi-dimensionnel (typiquement 384 à 4096 dimensions). C'est la transformation mathématique qui permet aux machines de "comprendre" le sens.
\\n\\n
Principe fondamental : Des éléments sémantiquement similaires ont des embeddings géométriquement proches dans l'espace vectoriel. La distance entre vecteurs reflète la similarité de sens.
\\n\\n\\n
Exemple visuel (simplifié en 2D) :
\\n
\\n
"roi" [0.8, 0.9] proche de "reine" [0.75, 0.85]\\n"chat" [0.2, 0.3] proche de "chien" [0.25, 0.35]\\n"voiture" [-0.5, 0.1] éloigné de "roi" [0.8, 0.9] \\n
\\n\\n
Relation algébrique célèbre :
\\n
\\n
embedding("roi") - embedding("homme") + embedding("femme") ≈ embedding("reine")
\\n
Cette propriété mathématique montre que les embeddings capturent des relations sémantiques complexes.
\\n
\\n\\n
Techniques d'embedding par époque :
\\n
\\n \\n \\n Technique \\n Année \\n Dimensions \\n Portée \\n Usage actuel \\n \\n \\n \\n \\n Word2Vec \\n 2013 \\n 100-300 \\n Mot seul \\n Légacy, simple \\n \\n \\n GloVe \\n 2014 \\n 50-300 \\n Mot seul \\n Légacy \\n \\n \\n FastText \\n 2016 \\n 100-300 \\n Mot + sous-mots \\n Langues rares \\n \\n \\n BERT embeddings \\n 2018 \\n 768-1024 \\n Contexte phrase \\n Classification \\n \\n \\n OpenAI ada-002 \\n 2022 \\n 1536 \\n Texte long \\n RAG, recherche \\n \\n \\n text-embedding-3-large \\n 2024 \\n 3072 \\n Texte + multilingue \\n Production actuelle \\n \\n \\n
\\n\\n
Applications concrètes :
\\n
\\n Recherche sémantique : Google Search comprend "capital France" → "Paris" (pas juste keywords) \\n Systèmes RAG : Retrouver documents pertinents par sens, pas par mots exacts \\n Clustering : Regrouper automatiquement articles similaires \\n Déduplication : Détecter contenus quasi-identiques même reformulés \\n Recommandation : "Clients qui ont aimé X aimeront Y" (Netflix, Spotify) \\n Détection d'anomalies : Textes anormalement éloignés = suspicion de fraude \\n \\n\\n
Coût API (OpenAI) : text-embedding-3-large = $0.00013/1K tokens (très économique vs LLM)
\\n\\n
Open-source populaires :
\\n
\\n Sentence-Transformers : Librairie Python référence (SBERT, MPNet) \\n all-MiniLM-L6-v2 : 384 dim, rapide, qualité correcte (idéal prototypes) \\n e5-large-v2 : 1024 dim, excellent rapport qualité/prix \\n \\n\\n
Ressources :
\\n
\\n
\\n\\n \\n
12. Dimension (d'un embedding) \\n
Définition : Nombre de valeurs numériques (coordonnées) composant un vecteur d'embedding. Chaque dimension capture un aspect différent du sens (syntaxe, sémantique, contexte, domaine...).
\\n\\n
Exemples de dimensionnalités courantes :
\\n
\\n 384 dimensions : all-MiniLM-L6-v2 (rapide, léger, 80MB) \\n 768 dimensions : BERT-base, MPNet-base (standard académique) \\n 1536 dimensions : OpenAI text-embedding-ada-002 (production) \\n 3072 dimensions : OpenAI text-embedding-3-large (state-of-the-art) \\n 4096 dimensions : Voyage AI, Cohere (ultra-précis) \\n \\n\\n
Trade-offs dimensionnalité :
\\n
\\n
Plus de dimensions (↑) :
\\n
\\n ✔️ Meilleure précision / nuance sémantique \\n ✔️ Moins de collisions (vecteurs identiques pour textes différents) \\n ❌ Coût stockage x2 (1536 dim = 6KB vs 768 dim = 3KB par vecteur) \\n ❌ Calcul de similarité plus lent \\n ❌ Nécessite plus de données d'entraînement \\n \\n
Moins de dimensions (↓) :
\\n
\\n ✔️ Rapide (recherche 10x plus rapide) \\n ✔️ Économique (stockage, mémoire, coûts cloud) \\n ❌ Perte de nuance sémantique \\n \\n
\\n\\n
Impact sur stockage (1M vecteurs) :
\\n
\\n 384 dim : ~1.5 GB \\n 768 dim : ~3 GB \\n 1536 dim : ~6 GB \\n 3072 dim : ~12 GB \\n \\n\\n
Règle empirique : Utilisez 384-768 dim pour prototypes/MVPs, 1536+ dim pour production exigeante (RAG médical, juridique, finance).
\\n\\n
Matryoshka Embeddings : Nouvelle approche (2024) permettant de tronquer dynamiquement les dimensions (ex: utiliser seulement les 512 premières dim d'un modèle 1536) avec perte minimale de qualité.
\\n\\n\\n
\\n\\n Paramètres, Contexte et Scaling Fenêtres de Contexte et Limites \\n\\n \\n
13. Paramètre (d'un modèle) \\n
Définition : Valeur numérique ajustable dans un réseau de neurones (poids des connexions, biais) qui est apprise automatiquement pendant l'entraînement. Plus un modèle a de paramètres, plus il peut capturer de patterns complexes (mais nécessite plus de données et calcul).
\\n\\n
Échelle des modèles modernes :
\\n
\\n \\n \\n Modèle \\n Paramètres \\n Taille disque \\n RAM GPU min \\n Usage \\n \\n \\n \\n \\n GPT-2 \\n 1.5B \\n ~6 GB \\n 8 GB \\n Éducatif \\n \\n \\n LLaMA 2 7B \\n 7B \\n ~13 GB \\n 16 GB \\n Local, prototypes \\n \\n \\n Mistral 7B \\n 7.3B \\n ~14 GB \\n 16 GB \\n Production légère \\n \\n \\n LLaMA 2 70B \\n 70B \\n ~140 GB \\n 80 GB (2x A100) \\n Production avancée \\n \\n \\n GPT-3 \\n 175B \\n ~350 GB \\n 320 GB (4x A100) \\n API seulement \\n \\n \\n GPT-4 \\n ~1.7T (estimé) \\n ~3.5 TB \\n Cluster GPU \\n API seulement \\n \\n \\n
\\n\\n
Règle empirique : En FP16 (half precision), 1 milliard de paramètres = ~2 GB de stockage. Avec quantization INT8, on divise par 2 (1B = ~1 GB).
\\n\\n
Mythe à déconstruire : "Plus de paramètres = toujours meilleur" est FAUX . Mistral 7B surpasse LLaMA 2 13B grâce à une meilleure architecture et données d'entraînement. La qualité dépend de : paramètres + architecture + données + entraînement.
\\n
\\n\\n \\n
14. Context Window (Fenêtre de Contexte) \\n
Définition : Quantité maximale de texte (mesurée en tokens) qu'un LLM peut "voir" et traiter simultanément en une seule fois. Incluant le prompt, l'historique de conversation ET la réponse générée. Une fois cette limite atteinte, le modèle "oublie" le début.
\\n\\n
Évolution des contextes (2020 → 2024) :
\\n
\\n
2020 : GPT-3 = 2K tokens (~1500 mots) → 1 page
\\n
2022 : GPT-3.5 = 4K tokens → 3 pages
\\n
2023 : GPT-4 = 32K tokens → 25 pages, Claude 2 = 100K → 75 pages
\\n
2024 : Gemini 1.5 Pro = 1M tokens → 700 pages (roman entier !)
\\n
\\n\\n
Comparaison modèles actuels :
\\n
\\n \\n \\n Modèle \\n Contexte \\n Mots (approx) \\n Équivalent \\n Cas d'usage \\n \\n \\n \\n \\n GPT-3.5 Turbo \\n 16K \\n ~12K \\n 24 pages \\n Conversations courtes \\n \\n \\n GPT-4 \\n 128K \\n ~96K \\n 192 pages \\n Analyse documents longs \\n \\n \\n Claude 3 Opus \\n 200K \\n ~150K \\n 300 pages \\n Livres, rapports annuels \\n \\n \\n Gemini 1.5 Pro \\n 1M \\n ~750K \\n 1500 pages \\n Codebases entières, corpus \\n \\n \\n
\\n\\n
Limitation technique : L'attention est en O(n²) : doubler le contexte = quadrupler le temps de calcul. C'est pourquoi passer de 100K à 1M tokens est un exploit technique majeur (optimisations comme Flash Attention, Ring Attention).
\\n\\n
Coût impacté : Plus de contexte = plus cher. GPT-4 avec 128K coûte 2x plus cher que 8K. Optimisez en ne passant que le contexte nécessaire.
\\n\\n
Cas d'usage concrets :
\\n
\\n 16K : Chatbots, assistance code (quelques fichiers) \\n 128K : Analyse contrats juridiques, rapports techniques \\n 200K+ : Analyse codebases, livres entiers, audits complets \\n 1M : Recherche académique (analyser 50 papers), due diligence M&A \\n \\n
\\n\\n 3. Entraînement et Optimisation Techniques d'Entraînement Modernes \\n\\n \\n
15. Training (Entraînement) \\n
Définition : Processus d'apprentissage où le modèle ajuste ses paramètres en minimisant une fonction de perte sur un jeu de données.
\\n
Phases : Pre-training (entraînement initial), fine-tuning (ajustement), continual learning.
\\n
Coût : Millions de dollars et des mois de calcul pour les grands modèles.
\\n
\\n\\n \\n
16. Fine-Tuning (Ajustement Fin) \\n
Définition : Ré-entraînement d'un modèle pré-entraîné sur un jeu de données spécifique pour l'adapter à une tâche particulière.
\\n
Avantages : Moins coûteux que l'entraînement from scratch, performances supérieures.
\\n
Techniques : Full fine-tuning, LoRA, QLoRA, PEFT.
\\n
\\n\\n \\n
17. LoRA (Low-Rank Adaptation) \\n
Définition : Technique de fine-tuning efficace qui ne modifie qu'une fraction des paramètres du modèle via des matrices de rang faible.
\\n
Avantage : Réduit drastiquement la mémoire et le temps de calcul nécessaires.
\\n
Usage : Fine-tuning de LLM sur GPU consumer, création de modèles spécialisés.
\\n
\\n\\n \\n
18. Prompt \\n
Définition : Instruction textuelle donnée à un LLM pour lui indiquer la tâche à effectuer.
\\n
Types : Zero-shot (sans exemple), few-shot (avec exemples), chain-of-thought.
\\n
Prompt Engineering : Art d'optimiser les prompts pour obtenir les meilleurs résultats.
\\n
\\n\\n \\n
19. Prompt Engineering \\n
Définition : Discipline consistant à concevoir des prompts optimaux pour maximiser la qualité des réponses d'un LLM.
\\n
Techniques : Role prompting, instruction following, format specification, examples provision.
\\n
Importance : Peut multiplier par 10 la qualité des résultats sans modifier le modèle.
\\n
\\n\\n \\n
20. Temperature \\n
Définition : Paramètre contrôlant le degré de créativité/aléatoire des réponses générées par un LLM.
\\n
Valeurs :
\\n
\\n 0 : Déterministe, prévisible (pour des tâches précises) \\n 0.7 : Équilibré (usage général) \\n 1+ : Créatif, surprenant (création de contenu) \\n \\n
\\n\\n \\n
21. Inference (Inférence) \\n
Définition : Phase où le modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données.
\\n
Métriques : Latence, throughput, tokens/seconde.
\\n
Optimisation : Quantization, pruning, distillation.
\\n
\\n\\n 4. Univers Vectoriel & Recherche Sémantique \\n\\n \\n
22. Vector Database (Base de Données Vectorielle) \\n
Définition : Base de données spécialisée pour stocker et rechercher efficacement des embeddings (vecteurs).
\\n
Solutions populaires : Pinecone, Weaviate, Qdrant, Milvus, Chroma, pgvector.
\\n
Usage : Recherche sémantique, RAG, systèmes de recommandation.
\\n
Article détaillé : Bases vectorielles expliquées
\\n
\\n\\n \\n
23. Similarity Search (Recherche par Similarité) \\n
Définition : Technique de recherche basée sur la proximité vectorielle plutôt que sur des mots-clés exacts.
\\n
Algorithmes : K-Nearest Neighbors (KNN), Approximate Nearest Neighbors (ANN).
\\n
Méthode : Calcul de distance (Euclidienne, cosine similarity, dot product).
\\n
\\n\\n \\n
24. Cosine Similarity (Similarité Cosinus) \\n
Définition : Mesure de similarité entre deux vecteurs basée sur l'angle entre eux (de -1 à 1).
\\n
Formule : cos(θ) = (A · B) / (||A|| × ||B||)
\\n
Interprétation : 1 = identiques, 0 = orthogonaux, -1 = opposés.
\\n
Usage : Mesure standard pour comparer des embeddings.
\\n
\\n\\n \\n
25. Vector Index (Index Vectoriel) \\n
Définition : Structure de données optimisant la recherche dans un espace vectoriel haute dimension.
\\n
Algorithmes : HNSW (Hierarchical Navigable Small World), IVF (Inverted File), PQ (Product Quantization).
\\n
Trade-off : Vitesse vs précision vs mémoire.
\\n
\\n\\n \\n
26. Chunking \\n
Définition : Découpage de documents longs en morceaux plus petits (chunks) avant vectorisation.
\\n
Stratégies : Taille fixe, taille sémantique, par paragraphe, recursive splitting.
\\n
Paramètres : chunk_size (taille), chunk_overlap (chevauchement).
\\n
Impact : Crucial pour la qualité du RAG.
\\n
\\n\\n \\n
27. Semantic Search (Recherche Sémantique) \\n
Définition : Recherche basée sur le sens et l'intention plutôt que sur les mots-clés exacts.
\\n
Technologie : Embeddings + bases vectorielles.
\\n\\n\\n
Exemple : Recherche "capital de la France" trouve "Paris" même sans le mot "Paris" dans le texte.
\\n
\\n\\n RAG et Retrieval Augmenté Bases Vectorielles et Recherche \\n\\n \\n
28. RAG (Retrieval-Augmented Generation) \\n
Définition : Architecture hybride combinant recherche d'information (retrieval dans une base de connaissances) et génération de texte (LLM) pour produire des réponses factuelles, à jour et sourcées basées sur vos propres données. C'est LA technique dominante pour intégrer des LLM avec données privées/spécialisées.
\\n\\n
Pipeline RAG détaillé (5 étapes) :
\\n
\\n
Phase 1 : Indexation (une fois)
\\n
\\n Ingestion : Charger documents (PDF, Word, web, DB...) \\n Chunking : Découper en morceaux de 500-1000 tokens avec overlap 10-20% \\n Embedding : Convertir chaque chunk en vecteur (OpenAI, SBERT...) \\n Stockage : Insérer vecteurs + metadata dans base vectorielle \\n \\n
Phase 2 : Query (temps réel)
\\n
\\n Question : "Quelle est notre politique de remboursement ?" \\n Embedding query : Vectoriser la question \\n Recherche : Trouver top-k chunks similaires (k=3-10) via cosine similarity \\n Prompt augmenté : Concaténer chunks + question dans prompt \\n Génération LLM : GPT/Claude génère réponse depuis le contexte fourni \\n Post-traitement : Ajouter citations, sources, confiance score \\n \\n
\\n\\n
Avantages vs Fine-Tuning :
\\n
\\n
\\n ✔️ Données à jour : Ajoutez/modifiez documents instantanément (vs ré-entraînement complet) \\n ✔️ Coût réduit : Indexation = quelques $/1M tokens vs fine-tuning = milliers de $ \\n ✔️ Sources traçables : Chaque réponse cite documents sources (conformité, confiance) \\n ✔️ Multi-domaines : Même système pour données RH, juridique, technique... \\n ✔️ Réduit hallucinations : LLM contraint par contexte factuel fourni \\n \\n
\\n\\n
Cas d'usage production réels :
\\n
\\n Support client : Chatbot répond depuis documentation produit (Intercom, Zendesk) \\n Recherche juridique : Analyse contrats, jurisprudence (gain 80% temps avocats) \\n Knowledge base interne : "Slack intelligent" cherchant dans tous docs entreprise \\n Analyse financière : Q&A sur rapports annuels, earnings calls \\n Documentation code : GitHub Copilot recherche dans votre codebase \\n E-commerce : Recherche produits par description naturelle \\n \\n\\n
Architectures avancées :
\\n
\\n Naive RAG : Pipeline basique ci-dessus (MVP, prototypes) \\n Advanced RAG : + reranking (Cohere), hybrid search (BM25 + vector), query expansion \\n Agentic RAG : Agent décide dynamiquement quelles sources interroger, multi-hop reasoning \\n GraphRAG : Knowledge graph + vecteurs pour relations complexes (Microsoft 2024) \\n \\n\\n
Stack technique typique :
\\n
\\n
\\n LLM : GPT-4, Claude 3, Mistral \\n Embeddings : OpenAI text-embedding-3, Sentence-Transformers \\n Vector DB : Pinecone, Qdrant, Weaviate, pgvector \\n Framework : LangChain, LlamaIndex, Haystack \\n Ingestion : Unstructured, LlamaParse, PyPDF \\n \\n
\\n\\n
Limitations & solutions :
\\n\\n\\n
\\n
\\n Chunking imparfait : Information coupée → Solution : overlap, chunking sémantique \\n Top-k insuffisant : Info manquante → Solution : augmenter k, hybrid search \\n Latence : 2-5s (vs 500ms LLM seul) → Solution : caching, embeddings précalculés \\n Context overflow : Trop de chunks → Solution : reranking, summarization \\n \\n
\\n\\n
Coût exemple (1M queries/mois) :
\\n
\\n Embeddings : ~$130 (text-embedding-3-large) \\n Vector DB : $70-300 (selon provider) \\n LLM calls : $3000-15000 (selon modèle GPT-3.5 vs GPT-4) \\n Total : $3200-15500/mois (vs fine-tuning initial $50K+) \\n \\n\\n
Ressources :
\\n
\\n
\\n\\n \\n
29. Retrieval (Récupération) \\n
Définition : Phase du RAG où le système recherche les documents/passages les plus pertinents dans une base de connaissances.
\\n
Méthodes : Dense retrieval (embeddings), sparse retrieval (BM25), hybrid retrieval.
\\n
Métrique : Recall@k (pourcentage de documents pertinents retrouvés dans les k premiers résultats).
\\n
\\n\\n \\n
30. Hallucination \\n
Définition : Phénomène où un LLM génère du contenu plausible mais factuellement incorrect ou inventé.
\\n
Causes : Manque de données d'entraînement, sur-confiance, prompt ambigu.
\\n
Solutions : RAG, fact-checking, température basse, instruction explicite.
\\n
\\n\\n 5. Production et Déploiement Mise en Production et Monitoring \\n\\n \\n
31. ? MLOps (Machine Learning Operations) \\n
Définition : Ensemble de pratiques pour déployer, monitorer et maintenir des modèles ML en production.
\\n
Composants : CI/CD pour ML, versioning de modèles, monitoring de performance, retraining automatique.
\\n
Outils : MLflow, Kubeflow, Weights & Biases, Neptune.ai.
\\n
\\n\\n \\n
32. Model Serving \\n
Définition : Infrastructure permettant d'exposer un modèle ML via une API pour l'inférence en temps réel.
\\n
Solutions : TorchServe, TensorFlow Serving, NVIDIA Triton, FastAPI custom.
\\n
Métriques : Latence, throughput, coût par requête.
\\n
\\n\\n \\n
33. ⚖️ Quantization \\n
Définition : Technique de compression réduisant la précision des poids d'un modèle (ex: FP32 → INT8) pour diminuer la taille et accélérer l'inférence.
\\n
Types : Post-training quantization, quantization-aware training.
\\n
Impact : 2-4x plus rapide, 75% de réduction de taille, perte de précision minimale.
\\n
\\n\\n \\n
34. ? Distillation \\n
Définition : Technique d'entraînement d'un modèle "élève" petit et rapide à imiter un modèle "professeur" large et performant.
\\n
Usage : Créer des modèles déployables sur mobile/edge tout en conservant la qualité.
\\n
Exemple : DistilBERT (66M param) imite BERT (110M param) avec 97% de performances.
\\n
\\n\\n \\n
35. Edge AI \\n
Définition : Exécution de modèles IA directement sur des appareils locaux (smartphones, IoT) plutôt que dans le cloud.
\\n
Avantages : Latence réduite, confidentialité, fonctionnement offline.
\\n
Défis : Ressources limitées (CPU, RAM, batterie).
\\n
\\n\\n Éthique, Gouvernance et Régulation Biais et Équité Algorithmique \\n\\n \\n
36. ⚖️ Bias (Biais Algorithmique) \\n
Définition : Discrimination systématique dans les prédictions d'un modèle, souvent héritée des biais dans les données d'entraînement.
\\n
Types : Biais de genre, racial, socio-économique.
\\n
Solutions : Datasets diversifiés, fairness metrics, audits réguliers.
\\n
\\n\\n \\n
37. Explainability (Explicabilité) \\n
Définition : Capacité à comprendre et expliquer comment un modèle arrive à ses décisions.
\\n
Techniques : SHAP, LIME, attention visualization.
\\n
Importance : Conformité réglementaire (RGPD), confiance utilisateur, debugging.
\\n
\\n\\n \\n
38. ?️ AI Safety (Sécurité de l'IA) \\n
Définition : Ensemble de pratiques pour s'assurer qu'un système IA agit de manière sûre, alignée avec les intentions humaines.
\\n
Enjeux : Jailbreaking, prompt injection, moderation, red teaming.
\\n
Standards : OWASP Top 10 LLM, NIST AI Risk Management Framework.
\\n
\\n\\n \\n
39. Perplexity (Perplexité) \\n
Définition : Métrique d'évaluation des modèles de langage mesurant la qualité des prédictions. Plus la perplexité est faible, meilleur est le modèle.
\\n
Usage : Évaluer et comparer différents LLMs, valider l'efficacité du fine-tuning.
\\n
\\n\\n \\n
40. Multimodal AI \\n
Définition : Modèles capables de traiter et générer plusieurs types de données simultanément (texte, image, audio, vidéo).
\\n\\n\\n
Exemples : GPT-4V (vision), DALL-E 3, Whisper (audio), Claude 3 (multimodal).
\\n
\\n\\n \\n
41. Semantic Search (Recherche Sémantique) \\n
Définition : Recherche basée sur le sens et l'intention plutôt que sur la correspondance exacte de mots-clés.
\\n
Technologie : Utilise les embeddings pour comprendre le contexte et trouver des résultats pertinents même sans mots identiques.
\\n
\\n\\n \\n
42. Context Window (Fenêtre de Contexte) \\n
Définition : Nombre maximum de tokens qu'un LLM peut traiter simultanément en entrée et sortie.
\\n
Exemples : GPT-4 Turbo (128k tokens), Claude 3 (200k tokens), Gemini 1.5 Pro (1M tokens).
\\n
\\n\\n \\n
43. Checkpoint \\n
Définition : Sauvegarde intermédiaire de l'état d'un modèle pendant l'entraînement, permettant de reprendre ou de revenir à un état antérieur.
\\n
Usage : Éviter de perdre des heures d'entraînement en cas de crash, comparer différentes versions du modèle.
\\n
\\n\\n \\n
44. Inference (Inférence) \\n
Définition : Phase où un modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données.
\\n
Différence avec Training : Training = apprentissage, Inference = utilisation en production.
\\n
\\n\\n \\n
45. Latency (Latence) \\n
Définition : Temps de réponse d'un modèle IA entre la requête et le résultat.
\\n
Enjeu : Critique pour les applications temps réel (chatbots, recherche, recommandations). Objectif : <100ms.
\\n
\\n\\n \\n
46. Synthetic Data (Données Synthétiques) \\n
Définition : Données générées artificiellement par des algorithmes plutôt que collectées du monde réel.
\\n
Avantages : Contourner le manque de données, éviter les problèmes de confidentialité, augmenter la diversité.
\\n
\\n\\n \\n
47. Few-Shot Learning \\n
Définition : Capacité d'un modèle à apprendre une nouvelle tâche avec très peu d'exemples (souvent 1 à 10).
\\n
Usage : GPT-4 peut résoudre des tâches complexes avec seulement quelques exemples dans le prompt.
\\n
\\n\\n \\n
48. Zero-Shot Learning \\n
Définition : Capacité d'un modèle à réaliser une tâche sans aucun exemple d'entraînement spécifique.
\\n
Exemple : Demander à GPT-4 de traduire en finnois sans lui donner d'exemples de traduction.
\\n
\\n\\n \\n
49. Tokenization (Tokenisation) \\n
Définition : Processus de découpage du texte en unités (tokens) que le modèle peut traiter.
\\n
Exemple : "Intelligence" peut être découpé en ["Intel", "ligence"] ou rester un seul token selon le tokenizer.
\\n
\\n\\n \\n
50. Agentic AI (IA Agentique) \\n
Définition : IA capable d'agir de manière autonome pour atteindre des objectifs, prendre des décisions et exécuter des actions complexes.
\\n
Exemples : AutoGPT, BabyAGI, agents qui planifient et exécutent des tâches multi-étapes.
\\n
\\n\\n \\n
Ressources Externes Essentielles \\n
Documentation officielle et ressources académiques de référence :
\\n
\\n
\\n
Papers & Recherche :
\\n
\\n ArXiv.org - AI Papers \\n NeurIPS Proceedings \\n ACL Anthology (NLP) \\n \\n
\\n
\\n
Documentation Officielle :
\\n
\\n OpenAI Platform Docs \\n Anthropic Claude Docs \\n Hugging Face Transformers \\n \\n
\\n
\\n
Frameworks :
\\n
\\n PyTorch Documentation \\n TensorFlow API \\n LangChain Docs \\n \\n
\\n
\\n
Bases Vectorielles :
\\n
\\n Qdrant Documentation \\n Pinecone Docs \\n Weaviate Developers \\n \\n
\\n
\\n
\\n\\n 6. Sécurité & IA Offensive \\nLa sécurité des systèmes d'IA constitue un domaine en pleine expansion, à l'intersection du machine learning et de la cybersécurité. Cette section couvre les attaques adversariales , les techniques de protection et les méthodes d'alignement des modèles, essentielles pour tout professionnel de la sécurité informatique confronté à la prolifération de l'IA en environnement de production.
\\n\\nAdversarial Machine Learning \\nDiscipline étudiant les vulnérabilités des modèles de machine learning face aux entrées malveillantes. L'adversarial ML englobe les attaques par perturbation (ajout de bruit imperceptible pour tromper un classifieur), les attaques par empoisonnement (corruption des données d'entraînement), et les attaques par extraction (vol du modèle via requêtes API). Les attaques adversariales exploitent la nature haute-dimensionnelle des espaces de features : une perturbation de quelques pixels peut faire classifier un panneau stop comme un panneau de limitation de vitesse. En cybersécurité, ces techniques sont utilisées tant par les attaquants (contournement d'antivirus ML, bypass de CAPTCHA) que par les défenseurs (red teaming de modèles, robustification). Les défenses incluent l'adversarial training , la distillation défensive et la détection d'anomalies dans les entrées.
\\n\\nPrompt Injection \\nAttaques sur les Modèles et les Prompts \\nAttaque consistant à injecter des instructions malveillantes dans le prompt d'un LLM pour détourner son comportement. On distingue l'injection directe (l'utilisateur insère des instructions dans son message) et l'injection indirecte (des instructions cachées dans des documents, pages web ou images traités par le modèle). Exemple d'injection indirecte : un email contient du texte invisible ordonnant au LLM-assistant d'exfiltrer les emails précédents. Les défenses incluent le input sanitization , les system prompts blindés , la séparation des canaux (data vs instructions), et les guardrails en sortie. L'OWASP classe le prompt injection comme la vulnérabilité n°1 des LLM. Les attaques évoluent rapidement : jailbreak multi-tour, encoding tricks (Base64, ROT13), et attaques par analogie.
\\n\\nData Poisoning \\nEmpoisonnement et Extraction de Modèles \\nAttaque ciblant la phase d'entraînement d'un modèle ML en injectant des données corrompues dans le dataset. L'objectif peut être de dégrader les performances globales (poisoning indiscriminé ) ou d'insérer une backdoor activée par un trigger spécifique (backdoor attack ). Exemple : modifier 0.1% des images d'entraînement en y ajoutant un motif invisible qui, une fois détecté en inférence, provoque une classification erronée. Dans le contexte des LLM, le data poisoning peut corrompre les réponses sur des sujets spécifiques. Les techniques de défense incluent la détection statistique d'outliers , le spectral signature analysis , la certification de datasets et le differential privacy training .
\\n\\n\\nAttaque visant à reproduire un modèle ML propriétaire en interrogeant son API. L'attaquant envoie des requêtes soigneusement choisies et utilise les réponses (prédictions, probabilités, embeddings) pour entraîner un modèle substitut fonctionnellement équivalent. Les techniques incluent le model stealing (reproduction fidèle de l'architecture), la distillation adversariale (extraction des connaissances) et le side-channel extraction (analyse du timing des réponses). Coût estimé d'extraction de GPT-4 : ~$10M en requêtes API. Les défenses incluent le rate limiting , la perturbation des outputs , le watermarking des modèles et la surveillance des patterns de requêtes .
\\n\\nMembership Inference \\nConfidentialité et Privacy en Machine Learning \\nAttaque permettant de déterminer si un échantillon spécifique faisait partie du dataset d'entraînement d'un modèle. Exploite le fait que les modèles se comportent différemment sur les données vues durant l'entraînement (overfitting). L'attaquant compare la confiance du modèle sur une donnée cible vs des données inconnues. Implications critiques en vie privée : révéler qu'un dossier médical était dans un dataset de santé, ou qu'un profil était dans un dataset de crédit. Les défenses principales sont le differential privacy (DP-SGD), la régularisation , le knowledge distillation et le machine unlearning .
\\n\\nDifferential Privacy \\nCadre mathématique garantissant que la participation d'un individu à un dataset n'affecte pas significativement les résultats d'une analyse. Formellement, un algorithme est (ε, δ)-différentiellement privé si pour tout sous-ensemble de sorties S et tout couple de datasets voisins D et D' : P[M(D) ∈ S] ≤ e^ε × P[M(D') ∈ S] + δ. Le paramètre epsilon (ε) contrôle le budget de confidentialité. En pratique : ajout de bruit gaussien ou laplacien pendant l'entraînement (DP-SGD ). Utilisé par Apple (Siri), Google (RAPPOR), le Census Bureau américain. Le trade-off fondamental : plus de confidentialité = moins de précision du modèle. Les frameworks modernes (Opacus, TensorFlow Privacy) facilitent l'implémentation.
\\n\\nFederated Learning \\nApprentissage Décentralisé et Protection \\nParadigme d'apprentissage décentralisé où le modèle est entraîné sur des données distribuées sans les centraliser. Chaque participant entraîne localement sur ses données et envoie uniquement les gradients (ou les poids mis à jour) au serveur d'agrégation. L'algorithme FedAvg agrège les mises à jour par moyenne pondérée. Cas d'usage : Google Gboard (prédiction de texte), hôpitaux (modèles diagnostiques sans partager les dossiers patients). Vulnérabilités : gradient inversion attacks (reconstruction d'images depuis les gradients), model poisoning (participant malveillant), free-riding . Défenses : secure aggregation , differential privacy locale , Byzantine-robust aggregation .
\\n\\nModel Watermarking \\nTechnique d'insertion de marqueurs vérifiables dans un modèle ML pour prouver la propriété intellectuelle. Les méthodes incluent le watermarking par backdoor (le modèle répond de manière spécifique à des inputs trigger), le watermarking des poids (modification imperceptible de certains paramètres), et le watermarking des embeddings (signature dans l'espace latent). Un bon watermark doit être robuste (résister au fine-tuning, pruning, distillation), fidèle (ne pas dégrader les performances), et vérifiable (détectable de manière fiable). Enjeu majeur avec la prolifération de modèles open-source fine-tunés sans attribution.
\\n\\nAI Red Teaming \\nÉvaluation et Red Teaming des Systèmes IA \\nProcessus structuré d'évaluation de la sécurité, de la robustesse et de l'alignement d'un système d'IA par simulation d'attaques adversariales. Diffère du red teaming traditionnel par ses cibles spécifiques : jailbreaks (contournement des guardrails), hallucinations provocées , biais amplifiés , fuites de données d'entraînement , manipulation de la chaîne de raisonnement . Le framework NIST AI RMF (AI 100-1) et le MITRE ATLAS fournissent les méthodologies. Les outils automatisés incluent Garak , PyRIT (Microsoft), ART (IBM). Les équipes red team IA combinent expertise ML, sécurité offensive et compréhension des biais sociaux.
\\n\\nJailbreak LLM \\nTechnique d'attaque visant à contourner les restrictions de sécurité (guardrails) d'un LLM pour obtenir des réponses interdites. Taxonomie : DAN (Do Anything Now) — roleplay forcing, hypothetical framing — scénarios fictifs, payload splitting — instructions fragmentées sur plusieurs tours, encoding bypass — Base64, ROT13, traduction, crescendo attack — escalade progressive, many-shot jailbreak — surcharge de contexte avec exemples. Les jailbreaks exploitent la tension entre l'utilité du modèle et ses restrictions. Les défenses évoluent : Constitutional AI , classifieurs de sécurité en amont/aval, circuit breakers .
\\n\\nGuardrails IA \\nGuardrails et Mécanismes de Sécurité \\nMécanismes de sécurité encadrant les entrées et sorties d'un système d'IA. Architecture typique : input guardrails (détection de prompt injection, filtrage de contenu toxique, classification d'intention), output guardrails (vérification factuelle, détection de PII, conformité au ton), interaction guardrails (limites de conversation, escalade vers un humain). Frameworks open-source : NeMo Guardrails (NVIDIA), Guardrails AI , LLM Guard . L'implémentation nécessite un équilibre entre sécurité et utilité : des guardrails trop restrictifs dégradent l'expérience utilisateur.
\\n\\nConstitutional AI \\nMéthode d'alignement développée par Anthropic où un modèle IA est entraîné à respecter un ensemble de principes (la 'constitution') via auto-évaluation. Processus en deux phases : critique (le modèle identifie les violations de principes dans ses propres réponses) et révision (le modèle corrige ses réponses). Avantage vs RLHF : réduit la dépendance aux annotateurs humains et rend les critères de sécurité explicites et auditables. La constitution peut inclure des principes de non-nuisance, d'honnêteté, de respect de la vie privée. Permet un alignement plus scalable et transparent.
\\n\\nRLHF \\nAlignement et Optimisation des Préférences \\nReinforcement Learning from Human Feedback — méthode d'alignement fine-tunant un LLM pour produire des réponses préférées par les humains. Pipeline : 1) Supervised Fine-Tuning (SFT) sur des démonstrations humaines, 2) Entraînement d'un Reward Model sur des comparaisons par paires, 3) Optimisation du LLM via PPO (Proximal Policy Optimization) en maximisant le reward model. Limites : coût des annotations humaines, reward hacking (le modèle optimise le reward sans réellement s'améliorer), biais des annotateurs. Évolutions : DPO (Direct Preference Optimization) élimine le reward model, RLAIF (IA comme feedback).
\\n\\nDPO \\nDirect Preference Optimization — alternative au RLHF qui élimine la nécessité d'un reward model séparé. DPO reformule l'objectif RLHF comme un problème de classification : le modèle apprend directement à distinguer les réponses préférées des réponses rejetées via une loss contrastive . Formule simplifiée : L_DPO = -log σ(β × (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x))). Avantages : plus simple à implémenter, plus stable à entraîner, ne nécessite pas de politique de sampling. Variantes : IPO (Identity Preference Optimization), KTO (Kahneman-Tversky Optimization), ORPO (Odds Ratio Preference Optimization).
\\n\\nAI Safety \\nDomaine de recherche visant à garantir que les systèmes d'IA sont bénéfiques, contrôlables et alignés avec les intentions humaines. Problématiques clés : alignement (le modèle fait-il ce que l'on veut ?), robustesse (résiste-t-il aux perturbations ?), interprétabilité (comprenons-nous ses décisions ?), contrôlabilité (pouvons-nous l'arrêter ?). Les risques existentiels (x-risk) concernent les systèmes superintelligents. Les risques actuels incluent la désinformation automatisée , les deepfakes , les armes autonomes , et la concentration de pouvoir . Organisations clés : AI Safety Institute (UK/US), MIRI, ARC, Center for AI Safety.
\\n\\n7. Agents & Orchestration \\nL'émergence de l'IA agentique en 2025-2026 a transformé les LLM de simples générateurs de texte en agents autonomes capables de raisonner, planifier et agir dans le monde réel. Cette section détaille les concepts fondamentaux des systèmes multi-agents, de l'orchestration et des patterns architecturaux qui définissent cette nouvelle ère de l'intelligence artificielle appliquée à la cybersécurité.
\\n\\nAgentic AI \\nParadigme d'intelligence artificielle où des agents autonomes planifient, raisonnent et exécutent des actions pour atteindre un objectif, en utilisant des outils externes (APIs, bases de données, fichiers). Contrairement aux chatbots réactifs, un agent IA est proactif : il décompose une tâche complexe en sous-tâches, choisit les outils appropriés, gère les erreurs et itère. Architecture typique : LLM (cerveau) + Tool Use (actions) + Memory (contexte) + Planning (stratégie). Exemples : agents de coding (Copilot, Cursor), agents de recherche, agents de sécurité (triage SOC automatisé). Les risques incluent les action hallucinations et l'exécution non contrôlée .
\\n\\n\\nOutils et Protocoles d'Interaction \\nCapacité d'un LLM à déclencher l'exécution de fonctions externes structurées pendant la génération. Le modèle génère un appel de fonction formaté (nom, arguments JSON) qui est intercepté par l'orchestrateur, exécuté, et dont le résultat est réinjecté dans le contexte. Cas d'usage : requêtes SQL, appels API REST, recherche web, exécution de code. Différence avec les plugins : le function calling est natif au modèle, standardisé par les fournisseurs (OpenAI, Anthropic). Enjeux de sécurité : injection d'appels malveillants , escalade de privilèges via outils, exfiltration de données via les arguments.
\\n\\nMCP (Model Context Protocol) \\nProtocole open-source développé par Anthropic standardisant la communication entre les LLM et les sources de données/outils externes. MCP définit une architecture client-serveur : le MCP Host (application IA) se connecte à des MCP Servers exposant des resources (données), des tools (actions) et des prompts (templates). Avantage : un seul protocole remplace N intégrations custom. Analogie : MCP est au LLM ce qu'USB est au matériel. Enjeux sécurité : authentification des serveurs MCP, filtrage des tools exposés, audit trail des actions, sandboxing de l'exécution. Adoption : Anthropic Claude, VS Code, Cursor, Zed.
\\n\\nReAct (Reasoning + Acting) \\nPattern de prompting où le LLM alterne entre raisonnement (Thought) et action (Act/Observe). Cycle : Thought (je dois chercher X) → Action (search(X)) → Observation (résultat) → Thought (d'après le résultat...) → Action suivante. Avantages vs Chain-of-Thought seul : le modèle peut accéder à des informations externes et corriger son raisonnement en temps réel. Implémenté dans LangChain, LlamaIndex, AutoGPT. En sécurité, ReAct est utilisé pour les agents de threat hunting : le modèle raisonne sur les IOCs, interroge le SIEM, corrèle les résultats et produit un rapport.
\\n\\nChain-of-Thought (CoT) \\nPatterns de Raisonnement \\nTechnique de prompting incitant un LLM à expliciter son raisonnement étape par étape avant de donner sa réponse finale. Le CoT améliore significativement les performances sur les tâches de raisonnement complexe (mathématiques, logique, code). Variantes : Zero-shot CoT ('Réfléchissons étape par étape'), Few-shot CoT (exemples de raisonnement), Auto-CoT (génération automatique de démonstrations). En cybersécurité, le CoT est utilisé pour l'analyse d'incidents (décomposition de la kill chain), l'évaluation de risques et l'analyse de vulnérabilités . Limitation : augmente la consommation de tokens et la latence.
\\n\\nTree-of-Thought (ToT) \\nExtension du Chain-of-Thought où le modèle explore plusieurs chemins de raisonnement en parallèle, évalue chaque branche et sélectionne la meilleure. Architecture : le LLM génère N branches à chaque étape, un évaluateur (le même LLM ou un autre) note chaque branche, et un algorithme de recherche (BFS, DFS, beam search) guide l'exploration. Avantage : résout des problèmes nécessitant du backtracking (puzzles, planification). En sécurité : utilisé pour l'exploration automatique de chemins d'attaque (équivalent IA de BloodHound) et la génération de scénarios de menace .
\\n\\nMulti-Agent Systems \\nSystèmes Multi-Agents et Collaboration \\nArchitecture où plusieurs agents IA spécialisés collaborent pour résoudre une tâche complexe. Chaque agent possède un rôle, des compétences et des outils distincts. Patterns de collaboration : hiérarchique (un orchestrateur délègue), peer-to-peer (négociation entre pairs), compétitif (débat adversarial). Frameworks : CrewAI , AutoGen (Microsoft), LangGraph . Application en cybersécurité : SOC multi-agents (un agent triage, un agent investigation, un agent remédiation, un agent rapport). Défis : communication overhead , boucles infinies , action conflicts , attribution de responsabilité .
\\n\\nOrchestrateur d'Agents \\nComposant central d'un système multi-agents responsable de la planification , de la délégation de tâches , du routage entre agents et de la gestion du contexte partagé . L'orchestrateur maintient un état global, gère les dépendances entre tâches, et décide quel agent appeler. Implémentations : LangGraph (graph de workflow), CrewAI (process model), Semantic Kernel (Microsoft). Patterns : sequential (un agent après l'autre), parallel fan-out (plusieurs agents en parallèle), conditional routing (choix d'agent selon le contexte). L'orchestrateur est le point critique de sécurité : sa compromission donne le contrôle de tous les agents.
\\n\\nMemory (Short-term / Long-term) \\nMémoire, Planification et Réflexion \\nMécanisme permettant à un agent IA de persister et de rappeler des informations au-delà du context window. Short-term memory : historique de conversation récent, maintenu dans le prompt (limité par le context window). Long-term memory : stockage vectoriel (base vectorielle) de faits, préférences et expériences passées, récupéré par similarité sémantique. Episodic memory : historique d'interactions spécifiques. Semantic memory : connaissances factuelles structurées. Procedural memory : compétences apprises (outils maîtrisés). Implémentation : RAG avec filtre temporel, graph databases pour relations, cache hiérarchique.
\\n\\nPlanning (IA) \\nCapacité d'un agent IA à décomposer un objectif de haut niveau en une séquence de sous-tâches exécutables. Méthodes : task decomposition (diviser récursivement), plan-and-execute (planifier puis exécuter séquentiellement), adaptive planning (replanning après chaque action). Algorithmes : LLM-based planning, PDDL classique, hierarchical task networks (HTN). Défis : les LLM sont imparfaits en planification longue — ils oublient des contraintes, créent des boucles, sous-estiment la complexité. Solutions : plan verification , human-in-the-loop pour les décisions critiques, bounded autonomy .
\\n\\nReflection \\nPattern où un agent IA auto-évalue ses actions et ses résultats pour s'améliorer itérativement. Processus : l'agent exécute une tâche, analyse le résultat (succès/échec, qualité), identifie les erreurs et ajuste sa stratégie. Implémentations : Reflexion (auto-critique textuelle), self-refine (amélioration itérative de la sortie), critic-agent (un second agent évalue le premier). En sécurité : un agent de pentest peut analyser pourquoi un exploit a échoué, ajuster les paramètres et réessayer. La reflection augmente significativement la qualité des outputs complexes (code, rapports d'analyse).
\\n\\nHuman-in-the-Loop (HITL) \\nArchitecture où un opérateur humain intervient à des points de décision critiques dans le workflow d'un agent IA. L'agent propose une action, l'humain approuve/modifie/rejette, et l'agent continue. Essentiel pour les systèmes à haut risque : actions destructives (suppression de données, modification de production), décisions irréversibles (envoi d'emails, achats), escalade sur incertitude . En cybersécurité : HITL est critique pour les playbooks SOAR (un analyste valide avant le blocage d'une IP), les agents de remédiation (confirmation avant patch). L'enjeu est de définir le bon niveau d'autonomie : trop de HITL = bottleneck, pas assez = risque opérationnel.
\\n\\n8. Architecture Avancée 2026 \\nL'année 2025-2026 a vu une explosion d'innovations architecturales dans les modèles d'IA, avec des avancées majeures en efficacité computationnelle , en scalabilité des séquences et en architectures alternatives aux Transformers . Ces concepts sont essentiels pour comprendre les performances, les coûts et les limites des systèmes d'IA modernes déployés en cybersécurité.
\\n\\nMixture of Experts (MoE) \\nArchitecture de réseau de neurones où seul un sous-ensemble d'experts est activé pour chaque entrée, permettant des modèles massivement plus grands sans augmentation proportionnelle du coût de calcul. Structure : N experts (sous-réseaux feedforward) + un gating network (routeur) qui sélectionne les top-K experts pour chaque token. Exemple : Mixtral 8x7B a 47B paramètres totaux mais n'en active que 13B par token (2 experts sur 8). Avantages : capacité accrue, coût d'inférence maîtrisé, spécialisation des experts. Défis : load balancing (éviter que tous les tokens aillent aux mêmes experts), expert collapse , communication inter-GPU. Utilisé par GPT-4, Mixtral, Grok, DeepSeek-V2.
\\n\\nSpeculative Decoding \\nOptimisation de l'Inférence \\nTechnique d'accélération de l'inférence LLM utilisant un modèle brouillon (draft model) rapide pour générer plusieurs tokens candidats, puis un modèle cible plus grand pour les vérifier en une seule passe forward. L'astuce : la vérification de N tokens est presque aussi rapide que la génération d'un seul. Si les tokens du draft sont acceptés, on gagne N-1 passes forward. Taux d'acceptation typique : 70-90% pour un bon draft model. Speedup : 2-3x sans perte de qualité. Variantes : Medusa (têtes de prédiction multiples), Lookahead decoding , self-speculative decoding .
\\n\\nKV-Cache \\nMécanisme d'optimisation de l'inférence des Transformers consistant à mettre en cache les vecteurs Key (K) et Value (V) des tokens déjà traités pour éviter de les recalculer à chaque nouveau token. Sans KV-Cache, la génération de N tokens coûte O(N²) ; avec, elle coûte O(N). Le KV-Cache est le principal consommateur de mémoire GPU en inférence : pour un modèle 70B en FP16, le cache pour 4096 tokens consomme ~40GB de VRAM. Optimisations : Multi-Query Attention (MQA), Grouped-Query Attention (GQA), paged attention (vLLM), KV-Cache compression , KV-Cache offloading (VRAM→RAM).
\\n\\nFlash Attention \\nMécanismes d'Attention Avancés \\nAlgorithme d'attention exacte optimisé pour le hardware GPU, développé par Tri Dao (Stanford). L'attention standard est limitée par la bande passante mémoire (memory-bound) : elle matérialise la matrice d'attention N×N en HBM. Flash Attention utilise le tiling : découpe les matrices en blocs qui tiennent dans la SRAM du GPU (20× plus rapide que l'HBM), calcule l'attention par blocs avec un algorithme de softmax incrémental (online softmax). Résultat : 2-4× plus rapide, utilise O(N) mémoire au lieu de O(N²). Flash Attention 2 et 3 ajoutent la parallélisation et le support des architectures Hopper (H100).
\\n\\nRing Attention \\nTechnique de parallélisation permettant de traiter des séquences de contexte illimitées en distribuant l'attention sur un anneau de GPU. Chaque GPU possède un bloc de la séquence et calcule l'attention locale. Les blocs KV sont passés circulairement d'un GPU au suivant (comme un anneau), chaque GPU accumulant les résultats d'attention sur tous les blocs. Le calcul d'attention et la communication réseau se chevauchent (overlap compute/communication ). Permet des context windows de millions de tokens. Utilisé par Gemini (10M tokens), combiné avec Flash Attention pour l'efficacité locale.
\\n\\nSparse Attention \\nFamille de mécanismes d'attention où chaque token n'attend que sur un sous-ensemble des tokens précédents au lieu de tous. Patterns : local attention (fenêtre glissante), strided attention (un token sur N), random attention , global tokens (tokens spéciaux attendant sur tout). Réduction de complexité : O(N²) → O(N√N) ou O(N×log(N)). Implémentations : Longformer (fenêtre locale + global), BigBird (local + global + random), Mistral Sliding Window . Trade-off : perte potentielle de qualité sur les dépendances longue distance. En pratique, combiné avec Flash Attention pour maximiser l'efficacité.
\\n\\nState Space Models (Mamba) \\nArchitectures Alternatives \\nArchitecture alternative aux Transformers basée sur les modèles d'espace d'état (SSM), permettant une inférence en O(N) au lieu de O(N²). Mamba (Gu & Dao, 2023) introduit la sélectivité : les paramètres du SSM dépendent de l'entrée, permettant au modèle de filtrer dynamiquement l'information. Avantages : inférence linéaire, pas de KV-Cache, excellent pour les séquences très longues. Performances comparables aux Transformers de même taille sur le texte. Jamba (AI21) combine Mamba + Transformer dans un modèle hybride. Limites : moins mature, écosystème plus restreint, performances inférieures sur les tâches nécessitant une attention précise sur des tokens distants.
\\n\\nLiquid Neural Networks \\nArchitecture de réseaux de neurones inspirée du système nerveux de C. elegans , développée au MIT CSAIL. Les connexions entre neurones sont dynamiques : les poids synaptiques changent continuellement en fonction de l'entrée (d'où 'liquid'). Formellement, chaque neurone est régi par une ODE (équation différentielle ordinaire) dont les paramètres dépendent de l'input. Avantages : nombre de paramètres drastiquement réduit (19 neurones suffisent pour la conduite autonome vs des milliers), adaptabilité en temps réel, interprétabilité. Applications : systèmes embarqués, robotique, edge AI. Encore en phase de recherche pour le NLP.
\\n\\nNeuromorphic Computing \\nComputing Non-Conventionnel \\nParadigme de calcul s'inspirant de l'architecture du cerveau biologique, utilisant des réseaux de neurones à impulsions (Spiking Neural Networks, SNN). Contrairement aux ANN classiques qui utilisent des activations continues, les SNN communiquent via des spikes (impulsions discrètes), ne consommant de l'énergie que lorsqu'un neurone 'fire'. Hardware : Intel Loihi 2 , IBM NorthPole , BrainChip Akida . Avantages : efficacité énergétique 100-1000× supérieure, latence ultra-faible, traitement événementiel. Applications en cybersécurité : détection d'anomalies réseau en temps réel sur hardware embarqué, analyse de patterns de trafic à la périphérie.
\\n\\nMatryoshka Embeddings \\nTechnique d'entraînement d'embeddings qui produit des représentations imbriquées : les D premières dimensions contiennent déjà une représentation utile, comme des poupées russes. Un embedding de 1536 dimensions peut être tronqué à 512, 256 ou même 64 dimensions avec une dégradation minimale de qualité. Entraînement : loss multi-résolution appliquée simultanément sur plusieurs niveaux de troncature. Avantage : flexibilité — utiliser des embeddings courts pour le filtrage rapide, puis des embeddings longs pour le re-ranking. Implémenté dans text-embedding-3 (OpenAI), nomic-embed , mxbai-embed . Réduction de coût de stockage vectoriel de 4-8×.
\\n\\n9. MLOps & Production \\nDéployer un modèle d'IA en production ne représente que 10% du travail — les 90% restants concernent la gestion opérationnelle . Cette section couvre les concepts essentiels du MLOps et du LLMOps , de la gestion des modèles au monitoring en passant par les stratégies de déploiement, avec un focus particulier sur les enjeux de sécurité et de fiabilité des systèmes d'IA en environnement de production.
\\n\\nLLMOps \\nExtension du MLOps spécifique aux Large Language Models, couvrant le cycle de vie complet : sélection de modèle (benchmark, coût, latence), fine-tuning (LoRA, QLoRA, full), évaluation (benchmarks automatisés, human eval), déploiement (vLLM, TGI, TensorRT-LLM), monitoring (drift, toxicité, coût), prompt management (versioning, A/B testing). Différences clés avec le MLOps classique : la taille des modèles (milliards de paramètres), le coût d'inférence (GPU), la nature stochastique des outputs, et les risques spécifiques (hallucinations, injection). Outils : LangSmith , Weights & Biases , Helicone , Portkey .
\\n\\nModel Registry \\nSystème centralisé de gestion des versions, métadonnées et artefacts des modèles ML tout au long de leur cycle de vie. Fonctionnalités : versioning (chaque modèle a un ID unique et un historique), staging (dev → staging → production), métadonnées (métriques, dataset, hyperparamètres), lineage (traçabilité des données et transformations). Implémentations : MLflow Model Registry , Weights & Biases , SageMaker Model Registry , Hugging Face Hub . En sécurité : le model registry est le garant de l'intégrité des modèles — il doit détecter les modèles corrompus et assurer la reproductibilité.
\\n\\nFeature Store \\nInfrastructure et Stockage ML \\nInfrastructure centralisée pour la gestion, le stockage et le service des features (caractéristiques) utilisées par les modèles ML. Architecture : offline store (données historiques pour l'entraînement, dans un data lake), online store (features servies en temps réel pour l'inférence, dans Redis/DynamoDB), feature computation (pipelines de transformation). Avantages : réutilisation des features entre équipes, cohérence entraînement/inférence (training-serving skew prevention), documentation automatique. Implémentations : Feast (open-source), Tecton , Databricks Feature Store . Enjeu sécurité : data poisoning via feature store .
\\n\\nA/B Testing ML \\nExpérimentation contrôlée comparant deux versions d'un modèle ML en production pour mesurer l'impact sur des métriques business . Spécificités ML : sample size plus important (la variance des LLM est élevée), métriques composites (qualité + latence + coût), canary routing (envoyer 5% du trafic au nouveau modèle). Méthodologie : définir l'hypothèse, calculer la taille d'échantillon nécessaire, router le trafic (sticky sessions), collecter les métriques, analyser la significativité statistique (p-value, intervalles de confiance). Outils : LaunchDarkly , Optimizely , custom traffic splitting via API gateway.
\\n\\nModel Drift \\nMonitoring et Dérive des Modèles \\nDégradation progressive des performances d'un modèle ML en production due à l'évolution des données ou du contexte. Types : data drift (la distribution des entrées change — ex: nouveau type de malware non vu en entraînement), concept drift (la relation entrée→sortie change — ex: un comportement autrefois normal devient suspect), label drift (la distribution des classes change). Détection : monitoring des distributions (KL divergence, PSI, KS test), surveillance des métriques de performance. Remédiation : re-entraînement périodique , online learning , feature monitoring , alerting automatisé .
\\n\\nShadow Deployment \\nStratégie de déploiement où un nouveau modèle ML reçoit le trafic de production en miroir mais ses prédictions ne sont pas servies aux utilisateurs. Le traffic est dupliqué : le modèle actif sert les réponses réelles, le modèle shadow traite les mêmes requêtes en parallèle. Objectif : comparer les performances du nouveau modèle vs l'actuel sur du trafic réel sans risque. Avantage vs A/B testing : aucun impact utilisateur, métriques sur 100% du trafic. Inconvénient : coût doublé en compute. Utilisé pour valider un nouveau LLM avant bascule, ou pour évaluer un modèle de détection de menaces avant mise en production.
\\n\\nContinuous Training \\nDéploiement Continu et Canary \\nParadigme MLOps où un modèle est automatiquement ré-entraîné lorsque certaines conditions sont remplies (drift détecté, nouvelles données disponibles, dégradation des métriques). Pipeline : data ingestion → feature engineering → training → evaluation → deployment. Triggers : schedule-based (quotidien, hebdomadaire), performance-based (accuracy < seuil), data-based (N nouvelles observations). Défis : catastrophic forgetting (le modèle oublie les anciennes connaissances), coût compute, validation automatisée. En cybersécurité : essentiel pour les modèles de détection de menaces qui doivent s'adapter aux nouvelles TTP.
\\n\\nCanary Deployment ML \\nStratégie de mise en production progressive d'un nouveau modèle ML. Le trafic est graduellement migré : 1% → 5% → 25% → 50% → 100%, avec surveillance des métriques à chaque palier. Rollback automatique si les métriques dégradent au-delà d'un seuil (latence, erreurs, qualité). Différence avec le canary classique (logiciel) : les métriques ML sont plus complexes (pas juste erreurs HTTP) — il faut surveiller la qualité des prédictions , les hallucinations , le drift , et les edge cases . Implémenté via Istio/Envoy (traffic splitting), AWS SageMaker (production variants), ou Kubernetes (Flagger).
\\n\\n10. Multimodal & Génératif \\nL'IA générative et les modèles multimodaux ont connu une adoption fulgurante en 2025-2026, des diffusion models aux techniques de fine-tuning efficace . Cette section décrypte les architectures et les méthodes qui permettent de générer, adapter et compresser les modèles d'IA modernes, tout en alertant sur les implications sécuritaires (deepfakes, backdoors via fine-tuning, model theft via distillation).
\\n\\nDiffusion Models \\nFamille de modèles génératifs apprenant à inverser un processus de bruitage . Entraînement : ajout progressif de bruit gaussien à une image (forward process) ; le modèle apprend à prédire le bruit à chaque étape (reverse process). Inférence : partir de bruit pur et débruiter itérativement pour générer une image. Architecture typique : U-Net conditionné par un embedding texte (CLIP). Modèles notables : Stable Diffusion (latent diffusion, opère dans l'espace latent d'un VAE), DALL-E 3 , Midjourney , Imagen . Applications sécurité : génération de deepfakes , synthetic data pour l'entraînement de détecteurs, data augmentation . La latent diffusion réduit le coût compute de 50× vs diffusion en pixel space.
\\n\\nLatent Space \\nEspaces Latents et Contrôle \\nEspace mathématique de dimensionnalité réduite où un modèle encode les caractéristiques essentielles des données. Chaque point de l'espace latent correspond à une donnée reconstruite. Propriétés d'un bon espace latent : continuité (des points proches correspondent à des données similaires), complétude (chaque point correspond à une donnée valide), disentanglement (chaque dimension contrôle un attribut indépendant). L'interpolation dans l'espace latent permet des transformations sémantiques (morphing entre visages, style transfer). En sécurité : l'analyse de l'espace latent permet de détecter des données adversariales ou out-of-distribution.
\\n\\nControlNet \\nArchitecture d'extension pour les modèles de diffusion permettant un contrôle conditionnel fin de la génération. ControlNet ajoute un réseau de contrôle parallèle au U-Net, conditionné par une entrée structurée : Canny edges , pose humaine (OpenPose), depth map , segmentation map , normal map . Le réseau de contrôle est un clone partiel du U-Net original, connecté via des zero convolutions (initialisées à zéro pour ne pas perturber le modèle pré-entraîné). Applications : génération d'images respectant une composition précise, inpainting guidé. Enjeu sécurité : ControlNet facilite la création de deepfakes réalistes à partir de poses ou contours simples.
\\n\\nLoRA / QLoRA \\nFine-Tuning Efficace et Compression \\nLow-Rank Adaptation — technique de fine-tuning efficace qui gèle les poids originaux d'un modèle et n'entraîne que de petites matrices de faible rang (rank r = 8-64) injectées dans chaque couche d'attention. Réduction : au lieu de fine-tuner 7B paramètres, on n'entraîne que ~10-50M paramètres. QLoRA (Quantized LoRA) combine LoRA avec une quantification 4-bit (NF4) du modèle de base, permettant de fine-tuner un modèle 70B sur un seul GPU 24GB. Le modèle de base reste en 4-bit, seuls les adaptateurs LoRA sont en FP16. Innovations : LoRA+ , DoRA (Weight-Decomposed LoRA), rsLoRA . Enjeu : des LoRA malveillants sur Hugging Face peuvent injecter des backdoors dans des modèles populaires.
\\n\\nPEFT \\nParameter-Efficient Fine-Tuning — famille de techniques permettant d'adapter un modèle pré-entraîné en ne modifiant qu'un petit nombre de paramètres . Méthodes : LoRA (adaptateurs low-rank), Prefix Tuning (préfixes apprenables dans le contexte), Prompt Tuning (soft prompts apprenables), Adapter Tuning (modules d'adaptation insérés entre les couches), (IA)³ (learned rescaling vectors). Avantages : coût d'entraînement réduit de 10-100×, stockage minimal (quelques MB par tâche vs GB pour un full fine-tune), possibilité de servir multiple adaptateurs sur un seul modèle de base (multi-LoRA). La librairie PEFT de Hugging Face unifie toutes ces méthodes.
\\n\\nAdapter Tuning \\nAdaptation et Distillation \\nTechnique PEFT insérant de petits modules d'adaptation (bottleneck layers) entre les couches existantes d'un Transformer. Architecture typique d'un adaptateur : down-projection (réduction de dimension), non-linéarité (ReLU/GELU), up-projection (retour à la dimension originale), skip connection (résidu). Les adaptateurs ne représentent que 1-5% des paramètres totaux. Avantage sur LoRA : meilleure capacité d'adaptation pour les tâches très différentes du pré-entraînement. Inconvénient : ajout de latence en inférence (couches supplémentaires). Peut être combiné avec LoRA pour un fine-tuning hybride.
\\n\\nKnowledge Distillation \\nTechnique de compression de modèle où un petit modèle (student ) est entraîné à reproduire le comportement d'un grand modèle (teacher ). Le student apprend non seulement les labels corrects mais aussi la distribution de probabilités du teacher (soft targets), qui contient plus d'information que les hard labels. Paramètre temperature : augmentée pendant la distillation pour 'adoucir' les distributions (révéler les similarités entre classes). Types : response-based (imiter les logits), feature-based (imiter les représentations internes), relation-based (imiter les relations entre échantillons). Applications : créer des modèles embarqués performants (ex: DistilBERT = 97% des perfs de BERT avec 40% de paramètres en moins).
\\nFAQ - Questions Fréquentes \\n\\n \\n Quelle est la différence entre un token et un embedding ? \\n \\n
Un token est l'unité de base du texte pour un modèle (mot, sous-mot), tandis qu'un embedding est la représentation numérique vectorielle de ce token dans un espace multidimensionnel. Le token est l'input textuel, l'embedding est sa transformation mathématique.
\\n
Pour en savoir plus : Embeddings vs Tokens expliqués
\\n
\\n \\n\\n \\n Dois-je fine-tuner mon modèle ou utiliser du RAG ? \\n \\n
RAG est recommandé si :
\\n
\\n Vos données changent fréquemment \\n Vous devez citer des sources \\n Budget limité pour l'entraînement \\n \\n
Fine-tuning est préférable si :
\\n
\\n Vous voulez modifier le style/ton du modèle \\n Tâche très spécifique nécessitant des capacités nouvelles \\n Latence critique (pas de recherche vectorielle) \\n \\n
Souvent, une combinaison des deux est optimale.
\\n
\\n \\n\\n \\n Quelle base vectorielle choisir pour mon projet ? \\n \\n
Pinecone : Managed, facile, scalable automatiquement (mais coûteux)
\\n
Qdrant : Open-source, performant, bonne intégration Python
\\n
Weaviate : Multi-modal, GraphQL, bonne pour données hybrides
\\n
Milvus : Enterprise-grade, très scalable, Kubernetes-native
\\n
Chroma : Simple, embedded, parfait pour prototypes
\\n
Article détaillé : Comment choisir une base vectorielle
\\n
\\n \\n\\n \\n Comment éviter les hallucinations d'un LLM ? \\n \\n
Techniques principales :
\\n
\\n RAG : Fournir du contexte factuel depuis vos données \\n Temperature basse : Réduire la créativité (0-0.3) \\n Instructions explicites : "Réponds uniquement à partir des documents fournis" \\n Fact-checking : Vérifier les claims critiques \\n Citations : Forcer le modèle à citer ses sources \\n \\n
\\n \\n\\n \\n Combien coûte l'utilisation d'un LLM en production ? \\n \\n
Via API (GPT-4, Claude) :
\\n
\\n GPT-4 : $0.03/1K tokens input, $0.06/1K output \\n GPT-3.5 Turbo : $0.001/1K tokens (20x moins cher) \\n Claude 3 Opus : $0.015/1K input, $0.075/1K output \\n \\n
Self-hosted (LLaMA, Mistral) :
\\n
\\n Infrastructure GPU : $500-5000/mois selon le modèle \\n Pas de coût par token \\n Meilleur si >10M tokens/mois \\n \\n
\\n \\n\\n \\n
Ressources open source associées :
\\n
\\nCyberSec-Assistant-3B — LLM cybersécurité généraliste (HuggingFace) \\nllm-finetuning-fr — Dataset fine-tuning LLM (HuggingFace) \\nprompt-engineering-fr — Dataset prompt engineering (HuggingFace) \\n \\n
\\n\\n\\nPour approfondir ce sujet, consultez notre outil open-source ai-threat-detection qui facilite la détection de menaces basée sur l'IA.
\\n\\nSources et références : ArXiv IA · Hugging Face Papers
\\n\\nFAQ \\nQu'est-ce que Glossaire IA ? \\nLe concept de Glossaire IA est détaillé dans les premières sections de cet article, qui couvrent les fondamentaux, les enjeux et le contexte opérationnel. Pour un accompagnement sur ce sujet, contactez nos experts .
\\nPourquoi Glossaire IA est-il important en cybersécurité ? \\nLa compréhension de Glossaire IA permet aux équipes de sécurité d'améliorer leur posture défensive. Les sections « Glossaire Complet de l'IA : 50 Termes Essentiels à Connaître » et « Introduction » détaillent les raisons de cette importance. Pour un accompagnement sur ce sujet, contactez nos experts .
\\nComment mettre en œuvre les recommandations de cet article ? \\nLes recommandations pratiques sont détaillées tout au long de l'article, avec des commandes, des outils et des méthodologies éprouvées. La section « Conclusion » fournit une synthèse actionnable. Pour un accompagnement sur ce sujet, contactez nos experts .
\\nConclusion \\n\\n Ce glossaire IA de 50 termes essentiels vous donne les fondations pour naviguer dans l'univers de l'intelligence artificielle moderne. De l'architecture des transformers aux subtilités des embeddings , en passant par les systèmes RAG et les bases vectorielles , vous disposez maintenant d'un vocabulaire solide.
\\n\\n L'IA évolue rapidement : de nouveaux termes apparaissent régulièrement. Nous maintenons ce glossaire à jour avec les dernières innovations. Marquez cette page comme référence pour vos projets.
\\n\\n \\n
? Prochaines Étapes \\n
Maintenant que vous maîtrisez le vocabulaire, approfondissez vos connaissances avec nos guides experts :
\\n
\\n
\\n\\n \\n
? Articles Connexes \\n
\\n
\\n\\nArticle suivant recommandé
10 Erreurs Courantes dans - Guide Pratique Cybersecurite → Découvrez les erreurs les plus fréquentes dans le chunking de documents pour le RAG et comment les éviter. Exemples conc
Analyse des impacts et recommandations L'analyse des risques associés à cette problématique révèle des impacts potentiels significatifs sur la confidentialité, l'intégrité et la disponibilité des systèmes d'information. Les recommandations présentées s'appuient sur les référentiels de l'ANSSI et du NIST pour garantir une approche structurée de la remédiation.
Mise en œuvre opérationnelle La mise en œuvre des mesures de sécurité décrites dans cet article nécessite une approche progressive, en commençant par les actions à gain rapide avant de déployer les contrôles plus complexes. Un plan d'action priorisé permet de maximiser la réduction du risque tout en respectant les contraintes opérationnelles de l'organisation.
Perspectives et évolutions Le paysage des menaces évolue continuellement, rendant nécessaire une veille permanente et une adaptation régulière des stratégies de défense. Les tendances actuelles indiquent une sophistication croissante des techniques d'attaque et une nécessité d'automatisation accrue des processus de détection et de réponse.
Embedding : Représentation vectorielle dense d'un objet (texte, image, audio) dans un espace mathématique où la proximité reflète la similarité sémantique.
Pour reproduire les résultats présentés, commencez par un dataset d'entraînement de qualité et validez sur un échantillon représentatif avant tout déploiement en production.
11. Cybersécurité Fondamentale
Les concepts essentiels de la cybersécurité, des principes fondamentaux aux méthodologies d'évaluation.
51. Zero Trust Architecture
Définition : Modèle de sécurité éliminant la confiance implicite et validant continuellement chaque interaction numérique selon le principe « ne jamais faire confiance, toujours vérifier ».
Contrairement au modèle périmétrique traditionnel, Zero Trust considère le réseau interne aussi hostile que l'extérieur. Chaque requête est authentifiée, autorisée et chiffrée. Les piliers : identité forte (MFA), micro-segmentation, least privilege, surveillance continue. Implémentations : Google BeyondCorp , Microsoft Entra ID , Zscaler ZPA . Référence : NIST SP 800-207. Voir aussi : Micro-segmentation, ZTNA, SDP
52. ZTNA (Zero Trust Network Access)
Définition : Technologie créant un périmètre d'accès basé sur l'identité autour d'applications, remplaçant le VPN par un accès conditionnel et contextuel.
Le ZTNA vérifie l'identité, la posture du device (EDR actif, OS à jour), le contexte (localisation, heure) avant d'accorder un accès minimal. Contrairement au VPN (accès réseau large), le ZTNA n'expose que l'application spécifique. Solutions : Zscaler Private Access , Cloudflare Access , Palo Alto Prisma Access . Gartner prévoit 70% d'adoption d'ici 2027. Voir aussi : Zero Trust, SDP, VPN
53. Cyber Kill Chain
Définition : Modèle Lockheed Martin en 7 étapes : Reconnaissance, Weaponization, Delivery, Exploitation, Installation, C2, Actions on Objectives.
Permet d'identifier l'étape d'une attaque et d'appliquer des contre-mesures. L'objectif : casser la chaîne le plus tôt possible. Critiqué pour sa vision linéaire et centrée malware, ce qui a conduit au framework MITRE ATT&CK plus granulaire et basé sur les comportements observés. Voir aussi : MITRE ATT&CK, Diamond Model
54. MITRE ATT&CK
Définition : Base de connaissances décrivant les tactiques, techniques et procédures (TTP) adverses, organisées en 14 tactiques couvrant l'intégralité du cycle d'attaque.
Standard de facto pour la modélisation des menaces. Matrices : Enterprise (Windows, Linux, macOS, Cloud), Mobile, ICS. Les SOC l'utilisent pour mapper la couverture de détection, les Red Teams pour planifier les opérations, les CTI pour classifier les adversaires. L'outil ATT&CK Navigator visualise la couverture. Plus de 700 techniques et sous-techniques documentées. Voir aussi : Kill Chain, MITRE D3FEND
55. MITRE D3FEND
Définition : Pendant défensif d'ATT&CK : base de connaissances des contre-mesures de cybersécurité mappées aux techniques d'attaque correspondantes.
5 catégories : Harden, Detect, Isolate, Deceive, Evict. Chaque contre-mesure est liée aux techniques ATT&CK qu'elle adresse. Exemple : T1003 (Credential Dumping) → D3-CRED (Credential Hardening). Permet aux organisations d'évaluer leur posture défensive contre des menaces spécifiques. Voir aussi : MITRE ATT&CK
56. CVE (Common Vulnerabilities and Exposures)
Définition : Système d'identification standardisé des vulnérabilités, géré par MITRE/CISA. Format : CVE-YYYY-NNNNN.
Référence sans ambiguïté à travers tous les outils de sécurité (NVD, scanners, advisories). Les CVE sont assignés par des CNA (CVE Numbering Authorities) : Microsoft, Google, Red Hat, etc. Le NVD enrichit avec scores CVSS, CPE et références. Plus de 30 000 CVE publiées en 2025. Voir aussi : CVSS, NVD, CWE
57. CVSS (Common Vulnerability Scoring System)
Définition : Standard d'évaluation de sévérité des vulnérabilités (0-10). CVSS v4.0 (2024) intègre métriques de base, temporelles, environnementales et supplémentaires.
Vecteurs : Attack Vector, Complexity, Privileges Required, User Interaction, Impact CIA. Scores : Critical (9.0-10.0), High (7.0-8.9), Medium (4.0-6.9), Low (0.1-3.9). V4.0 ajoute le contexte d'exploitation et remplace Scope par des concepts plus clairs. Voir aussi : CVE, EPSS
58. EPSS (Exploit Prediction Scoring System)
Définition : Modèle ML prédisant la probabilité d'exploitation d'une CVE dans les 30 jours. Score 0-1.
Utilise données historiques (GreyNoise, Shodan, ExploitDB) pour estimer le risque réel. Contrairement au CVSS (sévérité théorique), EPSS mesure la probabilité d'exploitation active . Une CVE CVSS 10 avec EPSS 0.1% est moins urgente qu'une CVE CVSS 7.5 avec EPSS 95%. Mis à jour quotidiennement par FIRST. Voir aussi : CVSS, KEV
59. KEV (Known Exploited Vulnerabilities)
Définition : Catalogue CISA des vulnérabilités activement exploitées. La BOD 22-01 impose la remédiation aux agences fédérales US dans des délais stricts.
Source la plus fiable pour les vulnérabilités avec exploitation confirmée. Chaque entrée : CVE, produit, date d'ajout, date limite, action requise. ~1200 vulnérabilités en 2025. L'ajout au KEV = priorité de remédiation maximale. Voir aussi : CISA, CVSS, EPSS
60. Pentest (Test d'Intrusion)
Définition : Évaluation offensive simulant un attaquant réel pour identifier les vulnérabilités exploitables dans les systèmes, réseaux et applications.
Types : Black Box (aucune info), Grey Box (info partielle), White Box (accès complet). Méthodologies : OWASP Testing Guide, PTES, OSSTMM, NIST SP 800-115. Phases : cadrage, reconnaissance, scanning, exploitation, post-exploitation, rapport. Voir aussi : Red Team, Bug Bounty
61. Red Team
Définition : Équipe offensive simulant des attaques sophistiquées testant les défenses techniques, processus, personnes et détection sur une durée longue.
Contrairement au pentest (focus technique, périmètre défini, court), le Red Team opère avec mandat large, durée longue, objectifs réalistes. Utilise social engineering, physical access, phishing ciblé et TTPs avancés. Teste la capacité de détection du Blue Team. Voir aussi : Blue Team, Purple Team
62. Blue Team
Définition : Équipe défensive responsable de la détection, réponse aux incidents, monitoring et durcissement de l'infrastructure. Opère le SOC.
Activités : monitoring SIEM/XDR, threat hunting, incident response, vulnerability management, hardening, security awareness. Outils : Splunk, Elastic, Wazuh, CrowdStrike, Defender XDR. Voir aussi : Red Team, Purple Team, SOC
63. Purple Team
Définition : Approche collaborative Red+Blue pour maximiser l'efficacité des détections et réponses de sécurité.
Le Red Team exécute une technique ATT&CK, le Blue Team vérifie sa détection en temps réel, les deux itèrent. Produit une matrice de couverture ATT&CK. Outils : Atomic Red Team , Caldera (MITRE), Vectr . Voir aussi : Red Team, Blue Team
64. Bug Bounty
Définition : Programme récompensant les chercheurs qui signalent des vulnérabilités de manière responsable.
Plateformes : HackerOne , Bugcrowd , YesWeHack , Intigriti . Récompenses : centaines de dollars (XSS) à millions (RCE iOS). Apple : jusqu'à $2M pour un jailbreak. Le concept de VDP (Vulnerability Disclosure Policy) offre un cadre sans récompense avec safe harbor. Voir aussi : Pentest, Responsible Disclosure
65. Threat Modeling
Définition : Processus structuré d'identification des menaces par analyse de l'architecture, des flux de données et des actifs.
Méthodologies : STRIDE (Microsoft), PASTA , LINDDUN (privacy), VAST . S'applique dès la phase de design (shift-left). Outils : Microsoft Threat Modeling Tool, OWASP Threat Dragon, IriusRisk. Voir aussi : STRIDE, Attack Surface
66. Attack Surface
Définition : Ensemble de tous les points d'entrée qu'un attaquant peut utiliser. Inclut surfaces réseau, applicative, humaine et physique.
L'ASM (Attack Surface Management) est une discipline avec des outils : Censys , Shodan , CrowdStrike Falcon Surface . L'EASM (externe) couvre domaines, IPs, APIs, cloud. La croissance du cloud et SaaS élargit considérablement les surfaces modernes. Voir aussi : ASM, Threat Modeling, Shadow IT
67. Lateral Movement
Définition : Techniques de déplacement d'un système compromis vers d'autres systèmes au sein du réseau pour atteindre la cible finale.
Techniques : Pass-the-Hash, Pass-the-Ticket, PSExec/WMI/WinRM, RDP hijacking, SSH key theft, token impersonation. Détection : Event ID 4624/4625, connexions SMB inhabituelles, UEBA. Voir aussi : Privilege Escalation, Pass-the-Hash
68. Privilege Escalation
Définition : Technique d'obtention de niveaux d'accès supérieurs. Verticale (user→admin) et horizontale (user A→user B).
Windows : services mal configurés, DLL hijacking, token manipulation, potato attacks, GPO abuse. Linux : SUID, capabilities, cron, kernel exploits, sudo misconfig. Outils : WinPEAS , LinPEAS , PowerUp . Voir aussi : Lateral Movement, SUID
69. Supply Chain Attack
Définition : Attaque ciblant les fournisseurs ou composants logiciels plutôt que l'organisation elle-même.
Exemples : SolarWinds (2020, 18 000 orgs), Kaseya (2021, REvil), 3CX (2023), XZ Utils (2024, backdoor). Protection : Sigstore, SLSA, SBOM, analyse de dépendances, évaluation fournisseurs. Voir aussi : SBOM, Dependency Confusion
70. SBOM (Software Bill of Materials)
Définition : Inventaire structuré de tous les composants et dépendances d'un logiciel avec versions, licences et vulnérabilités.
Obligatoire pour fournisseurs du gouvernement US (EO 14028), recommandé par l'ANSSI. Formats : SPDX , CycloneDX . Outils : Syft , Trivy , cdxgen . Permet d'identifier rapidement les composants vulnérables (ex: Log4Shell). Voir aussi : Supply Chain, SCA
12. Sécurité Réseau
Protocoles, technologies et techniques de protection des réseaux informatiques.
71. Firewall (Pare-feu)
Définition : Dispositif contrôlant le trafic réseau selon des règles de sécurité. Matériel (appliance) ou logiciel (host-based).
Évolution : Packet filter (L3/4) → Stateful → NGFW (inspection applicative, IPS, SSL decryption, threat intel). Leaders : Palo Alto, Fortinet FortiGate, Check Point, Cisco Firepower. Cloud-native : AWS Security Groups, Azure NSG. Voir aussi : NGFW, WAF, IDS/IPS
72. WAF (Web Application Firewall)
Définition : Pare-feu applicatif protégeant les applications web contre XSS, SQLi, CSRF en filtrant le trafic HTTP/HTTPS (couche 7).
Modes : reverse proxy, cloud-based (Cloudflare, AWS WAF, Akamai), agent. Règles standards : OWASP Core Rule Set (CRS). Les WAF modernes intègrent ML et bot management. Limitation : contournable par encodage ou payloads polymorphiques. Voir aussi : Firewall, OWASP
73. IDS/IPS
Définition : IDS : détection d'intrusion par alertes. IPS : version active bloquant le trafic malveillant. Signature-based ou anomaly-based.
NIDS réseau : Snort, Suricata (multi-threading, standard actuel). HIDS host : OSSEC, Wazuh. Approches : signature (patterns connus) et anomaly (ML). Rulesets : ET Open (gratuit), ET Pro (commercial). Voir aussi : NDR, Suricata, Zeek
74. NDR (Network Detection and Response)
Définition : Solution analysant le trafic réseau en continu pour détecter menaces avancées et mouvements latéraux avec réponse automatisée.
Va au-delà de l'IDS : ML, threat intel, analyse de protocoles. Analyse métadonnées (NetFlow, DNS, HTTP, TLS) et/ou payload (DPI). Leaders : Darktrace , Vectra AI , ExtraHop , Corelight . Forme le SOC Visibility Triad avec EDR + SIEM. Voir aussi : EDR, XDR, SOC Visibility Triad
75. DPI (Deep Packet Inspection)
Définition : Analyse du contenu complet des paquets (headers + payload) pour identifier applications, protocoles et contenus.
Usages : détection d'intrusion, filtrage de contenu, QoS, surveillance. DPI sur TLS 1.3 nécessite un proxy de terminaison. Solutions : nDPI (open source), Palo Alto App-ID, NGFW. Voir aussi : NGFW, IDS/IPS
76. VPN (Virtual Private Network)
Définition : Tunnel chiffré entre deux points sur Internet pour l'accès distant sécurisé aux ressources réseau.
Protocoles : IPSec (IKEv2), OpenVPN (SSL/TLS), WireGuard (moderne, performant). Types : Remote Access, Site-to-Site. Progressivement remplacé par ZTNA (accès plus granulaire, meilleure UX). Voir aussi : ZTNA, IPSec, WireGuard
77. Microsegmentation
Définition : Division du réseau en segments granulaires (jusqu'au workload) pour contrôler le trafic Est-Ouest entre systèmes internes.
Contrôle le trafic latéral, pas le périmètre. Bloque le mouvement latéral. Solutions : VMware NSX , Illumio , Guardicore . Le cloud facilite via Security Groups et Network Policies Kubernetes. Voir aussi : Zero Trust, Lateral Movement
78. DNS Security
Définition : Technologies protégeant le DNS (spoofing, hijacking, tunneling, cache poisoning) et l'utilisant comme vecteur de détection.
Technologies : DNSSEC (signature crypto), DoH/DoT (chiffrement), DNS filtering. Services : Cisco Umbrella, Cloudflare Gateway, Infoblox. Le monitoring DNS détecte le tunneling, les DGA et les fast-flux. Voir aussi : DNSSEC, DNS Tunneling, DGA
79. TLS 1.3
Définition : Protocole cryptographique assurant confidentialité et intégrité des communications. Version actuelle depuis 2018, SSL est obsolète.
Apports : 0-RTT, suppression algorithmes faibles, forward secrecy obligatoire (ECDHE), handshake 1-RTT. Certificats gratuits via Let's Encrypt . Certificate Transparency (CT) détecte les certificats frauduleux. Voir aussi : mTLS, HSTS, Certificate Transparency
80. mTLS (Mutual TLS)
Définition : Extension TLS avec authentification mutuelle client ET serveur via certificats X.509.
Utilisé en Zero Trust, service meshes (Istio, Linkerd), APIs B2B. Solutions : SPIFFE/SPIRE , HashiCorp Vault , cert-manager . Empêche le MitM même si l'attaquant contrôle le réseau. Voir aussi : Zero Trust, Service Mesh, PKI
13. SOC, SIEM et Détection
Outils, méthodologies et architectures du Security Operations Center.
81. SOC (Security Operations Center)
Définition : Centre opérationnel de surveillance continue, détection, réponse et analyse de sécurité 24/7.
Analystes N1 (triage), N2 (investigation), N3 (expert/hunting). Modèles : interne, managé (MSSP), hybride. KPIs : MTTD, MTTR, taux de faux positifs. Outils : SIEM, XDR, SOAR, TIP. Voir aussi : SIEM, XDR, SOAR, MSSP
82. SIEM
Définition : Plateforme centralisée collectant, normalisant, corrélant et analysant les logs et événements de sécurité de toute l'infrastructure.
Fonctions : log management, corrélation, alerting, compliance reporting. Leaders : Splunk , Microsoft Sentinel , IBM QRadar , Elastic Security , Google Chronicle , Wazuh . Le SIEM cloud-native remplace le on-premise. Voir aussi : XDR, SOC, Log Management
83. XDR (Extended Detection and Response)
Définition : Plateforme unifiée de détection/réponse multi-sources : endpoints, réseau, email, cloud, identités, avec corrélation automatique.
Résout la fragmentation des outils. Native XDR (vendor unique : CrowdStrike, SentinelOne, Microsoft) vs Open XDR (multi-vendor : Stellar Cyber, Sekoia.io, Wazuh). Corrèle les alertes en incidents multi-sources. Différence avec SIEM : centré détection/réponse vs flexible/compliance. Voir aussi : EDR, SIEM, NDR, SOAR
84. EDR (Endpoint Detection and Response)
Définition : Solution sur les endpoints surveillant l'activité système, détectant les menaces avancées et fournissant la réponse à distance.
Télémétrie : processus, fichiers, registre, réseau, modules, syscalls. Capacités : threat detection (behavioral+signature), investigation (timeline), response (isolation, kill, quarantine), hunting. Leaders : CrowdStrike , SentinelOne , Microsoft Defender for Endpoint . Voir aussi : XDR, NGAV
85. SOAR
Définition : Plateforme automatisant la réponse aux incidents via orchestration entre outils de sécurité et playbooks codifiés.
Automatise : enrichissement IOC, blocage IP, isolation machine, ticket ITSM, notification. Solutions : Palo Alto XSOAR , Splunk SOAR , TheHive+Cortex (open source), Tines , Shuffle . Voir aussi : SOC, SIEM, Playbook
86. Sigma Rules
Définition : Format de détection générique et open source pour règles SIEM, permettant l'écriture unique et la conversion vers n'importe quel SIEM.
Standard partagé en YAML. Convertisseur Sigma CLI traduit vers SPL, KQL, Wazuh, QRadar. Le repo SigmaHQ contient >3000 règles communautaires. Sigma est aux détections ce que Snort est aux signatures réseau. Voir aussi : SIEM, Detection Engineering, YARA
87. YARA Rules
Définition : Outil et langage d'identification de malwares par pattern matching sur le contenu des fichiers.
Décrit les caractéristiques d'un malware (strings, opcodes, headers). Utilisé par EDR, sandboxes, analystes malware, TIP. Sources : YARA-Rules (communauté), Malpedia. YARA-X : réécriture moderne en Rust. Voir aussi : Sigma, IOC, Malware Analysis
88. Threat Hunting
Définition : Recherche proactive de menaces ayant échappé aux détections automatisées, basée sur des hypothèses et l'analyse de télémétrie.
Processus : 1) Hypothèse, 2) Collecte/analyse, 3) Investigation anomalies, 4) Création de détections. Frameworks : PEAK , TaHiTI . Diffère de la détection (passive) par son approche active et hypothesis-driven. Voir aussi : SOC, MITRE ATT&CK
89. IOC (Indicator of Compromise)
Définition : Artefact indiquant une compromission : IP malveillantes, hashes, domaines C2, patterns d'activité.
Types : atomiques (IP, hash — éphémères), computed (patterns), behavioral (TTP — durables). Pyramide de la douleur (Bianco) : hash (trivial à changer) → IP → domaines → outils → TTPs (très difficile). Partage : MISP, STIX/TAXII, OpenCTI. Voir aussi : TTP, MISP
90. TTP (Tactics, Techniques, Procedures)
Définition : Description du comportement adversaire : pourquoi (tactiques), comment (techniques), implémentation (procédures). IOC les plus durables.
Au sommet de la pyramide de la douleur. Changer de TTP nécessite un développement significatif pour l'attaquant. MITRE ATT&CK catalogue les TTP de centaines de groupes APT. La détection TTP-based est plus résiliente que les IOC atomiques. Voir aussi : MITRE ATT&CK, IOC
91. Detection Engineering
Définition : Discipline appliquant le génie logiciel à la création, test, déploiement et maintenance de règles de détection dans un pipeline CI/CD.
Règles traitées comme du code : versionnées (Git), testées (unit tests), déployées (CI/CD→SIEM), mesurées (couverture ATT&CK). Detection-as-Code . Outils : Sigma, Atomic Red Team, Splunk Attack Range. Voir aussi : Sigma, Detection-as-Code, Purple Team
92. UEBA
Définition : User and Entity Behavior Analytics : ML pour établir des profils comportementaux normaux et détecter les déviations.
Détecte : insider threats, compromission de compte, lateral movement. Modèles : isolation forest, autoencoders, analyse de séquences. Intégré aux SIEM modernes : Splunk UBA, Sentinel UEBA, Exabeam. Voir aussi : SIEM, Insider Threat
93. Wazuh
Définition : Plateforme open source unifiée SIEM + XDR + HIDS + compliance monitoring, gratuite et extensible, on-premise ou cloud.
Basé sur OSSEC. Fonctionnalités : FIM, SCA, Vulnerability Detection, Active Response, Compliance (PCI-DSS, GDPR, HIPAA), Cloud Security. Architecture : agents + manager + indexer (OpenSearch) + dashboard. >20M d'installations. Voir aussi : XDR, SIEM, OSSEC
94. Suricata
Définition : Moteur open source IDS/IPS/NSM haute performance, multi-threading, développé par l'OISF. Successeur de facto de Snort.
Détection de protocoles auto, extraction de fichiers, rules Snort compatibles. Utilisé comme composant réseau dans les stacks SOC. Rulesets : ET Open (gratuit), ET Pro (commercial). Voir aussi : Snort, IDS/IPS, NDR
95. Zeek (ex-Bro)
Définition : Framework open source de monitoring réseau produisant des logs structurés de haut niveau (connexions, DNS, HTTP, TLS, fichiers).
Ne génère pas d'alertes mais des logs riches : conn.log, dns.log, http.log, ssl.log. Alimente le SIEM pour corrélation et hunting. Programmable (script Zeek). Corelight = version commerciale. Pilier du SOC Visibility Triad. Voir aussi : Suricata, NDR, SIEM
96. Splunk
Définition : Plateforme leader SIEM et observabilité. SPL (Search Processing Language) pour les requêtes. Enterprise Security = module SIEM.
Architecture : Forwarders (collecte) → Indexers (stockage) → Search Heads (interface). Critique : coût par volume ingéré. Alternatives open source (Elastic, Wazuh) et cloud-native (Chronicle, Sentinel) en progression. Voir aussi : SIEM, SPL, Elastic
97. Elastic Security
Définition : Suite open source basée sur Elasticsearch/Kibana offrant SIEM, détection, investigation et réponse avec Elastic Agent.
Detection rules KQL/EQL alignées MITRE ATT&CK. Elastic Agent unifie collecte + endpoint security via Fleet. Même stack pour observabilité (APM, logs, métriques) et sécurité → réduction des coûts. Voir aussi : SIEM, Splunk, Wazuh
98. Microsoft Sentinel
Définition : SIEM et SOAR cloud-native Microsoft, intégré à Azure et M365, avec ML/IA pour détection et automatisation.
Ingestion native des données Microsoft. KQL pour les requêtes. UEBA intégré, Fusion (corrélation ML), Notebooks Jupyter, Logic Apps (SOAR). Prix par volume (Go/jour). Copilot for Security ajoute l'IA générative. Voir aussi : SIEM, Azure, KQL
99. MISP
Définition : Plateforme open source de threat intelligence pour le partage, stockage et corrélation d'IOC entre organisations.
Organise les IOC en événements et attributs, partage via STIX/TAXII. Galaxies mappent aux groupes APT. Communautés : CIRCL, FIRST, CERTs nationaux. Interopérabilité avec OpenCTI et TheHive. Voir aussi : Threat Intelligence, IOC, OpenCTI
100. Threat Intelligence Platform (TIP)
Définition : Plateforme centralisant collecte, traitement, analyse et distribution de threat intelligence pour les opérations de sécurité.
Agrège feeds open source (Abuse.ch, AlienVault OTX) et commerciaux (Recorded Future, Mandiant). Normalise en STIX, enrichit (géoloc, whois, réputation), distribue aux SIEM/EDR/firewall. Solutions : MISP, OpenCTI, Anomali, ThreatConnect. Voir aussi : MISP, IOC, STIX/TAXII
14. Cryptographie
Algorithmes, protocoles et concepts cryptographiques fondamentaux pour la sécurité des données et des communications.
101. Chiffrement Symétrique
Définition : Algorithme utilisant la même clé pour chiffrer et déchiffrer. Rapide, adapté aux volumes importants.
Standards actuels : AES (128/192/256 bits, NIST), ChaCha20 (alternative à AES, performant en software). Modes : GCM (authentifié, recommandé), CBC (legacy), CTR. AES-256-GCM est le standard pour TLS 1.3, IPSec et le chiffrement de disque (BitLocker, LUKS). Voir aussi : AES, ChaCha20
102. Chiffrement Asymétrique
Définition : Algorithme utilisant une paire de clés (publique/privée). Lent mais résout le problème de distribution des clés.
Algorithmes : RSA (2048+ bits), ECDSA/ECDH (courbes elliptiques, clés plus courtes), Ed25519 (signature rapide). Utilisé pour l'échange de clés (TLS handshake), les signatures numériques (certificats X.509) et le chiffrement de messages (PGP/GPG). Voir aussi : RSA, ECC, PKI
103. Hashing (Fonction de Hachage)
Définition : Fonction mathématique à sens unique transformant une entrée de taille variable en une empreinte fixe. Irréversible et résistante aux collisions.
Standards : SHA-256/SHA-3 (intégrité), bcrypt/scrypt/Argon2 (mots de passe — avec salt et coût ajustable). MD5 et SHA-1 sont cassés (collisions) et ne doivent plus être utilisés. Applications : intégrité des fichiers, stockage de mots de passe, blockchain, signatures numériques. Voir aussi : SHA-256, Argon2, bcrypt
104. PKI (Public Key Infrastructure)
Définition : Infrastructure de gestion de certificats numériques et de clés publiques permettant l'authentification et le chiffrement des communications.
Composants : CA (Certificate Authority), RA (Registration Authority), certificats X.509, CRL/OCSP (révocation). Les CA racines (DigiCert, Let's Encrypt, GlobalSign) forment la chaîne de confiance. Let's Encrypt a démocratisé les certificats TLS gratuits via le protocole ACME. La PKI est la fondation de HTTPS, S/MIME, code signing et mTLS. Voir aussi : TLS, CA, X.509
105. Forward Secrecy (PFS)
Définition : Propriété cryptographique garantissant que la compromission d'une clé privée long-terme ne compromet pas les sessions passées.
Chaque session utilise une clé éphémère (ECDHE/DHE) négociée par échange Diffie-Hellman. La clé de session est détruite après utilisation. Même si la clé privée du serveur est volée, les captures de trafic passées restent indéchiffrables. Obligatoire dans TLS 1.3, recommandé dans TLS 1.2. Voir aussi : TLS, Diffie-Hellman, ECDHE
106. HSM (Hardware Security Module)
Définition : Dispositif matériel dédié au stockage sécurisé de clés cryptographiques et aux opérations crypto haute performance, certifié FIPS 140-2/3.
Les clés ne quittent jamais le HSM (anti-extraction matérielle). Usages : CA signing, TLS offload, code signing, chiffrement de bases de données, PKI. Solutions : Thales Luna , Entrust nShield , AWS CloudHSM , Azure Dedicated HSM . Certifications : FIPS 140-2 Level 3 (tamper-evident), Level 4 (tamper-active). Voir aussi : PKI, Key Management
107. Cryptographie Post-Quantique
Définition : Algorithmes cryptographiques résistants aux attaques des ordinateurs quantiques, standardisés par le NIST en 2024.
Les ordinateurs quantiques (algorithme de Shor) casseront RSA et ECC. Le NIST a standardisé : ML-KEM (CRYSTALS-Kyber, encapsulation de clé), ML-DSA (CRYSTALS-Dilithium, signature), SLH-DSA (SPHINCS+, signature hash-based). La migration est urgente : « harvest now, decrypt later » menace les données à long terme dès aujourd'hui. Voir aussi : CRYSTALS-Kyber, Dilithium
108. Zero-Knowledge Proof (ZKP)
Définition : Protocole cryptographique permettant à une partie de prouver la connaissance d'une information sans révéler l'information elle-même.
Applications : authentification sans mot de passe, blockchain privacy (Zcash, zkRollups), vérification d'identité sans divulgation de données. Types : zk-SNARKs (succincts, non-interactifs), zk-STARKs (transparents, post-quantiques). Utilisés massivement dans les L2 Ethereum (zkSync, StarkNet, Polygon zkEVM). Voir aussi : Blockchain, Privacy
109. Homomorphic Encryption
Définition : Chiffrement permettant d'effectuer des calculs sur des données chiffrées sans les déchiffrer, obtenant un résultat chiffré du calcul.
Permet le traitement de données sensibles dans le cloud sans exposition. Types : partiellement homomorphe (PHE, un type d'opération), fully homomorphe (FHE, toute opération). Très lent en pratique mais en progrès rapide. Solutions : Microsoft SEAL , IBM HELib , Google FHE , Zama (FHE pour ML). Voir aussi : Confidential Computing, Privacy
110. Secure Enclave / TEE
Définition : Environnement d'exécution de confiance (Trusted Execution Environment) isolé matériellement du reste du système pour protéger le code et les données sensibles.
Implémentations : Intel SGX (enclaves, déprécié au profit de TDX), Intel TDX (VM confidentielles), AMD SEV-SNP (chiffrement mémoire VM), ARM TrustZone (mobile). Utilisé pour le confidential computing cloud : les données restent chiffrées même pendant le traitement. Services : Azure Confidential Computing, AWS Nitro Enclaves. Voir aussi : SGX, AMD SEV, Confidential Computing
15. Exploitation & Pentest
Techniques offensives, outils d'exploitation et méthodologies de test d'intrusion.
111. Buffer Overflow
Définition : Vulnérabilité où un programme écrit au-delà des limites d'un buffer mémoire, corrompant les données adjacentes (adresses de retour, pointeurs).
Deux types : stack overflow (écriture sur la pile, écrase l'adresse de retour) et heap overflow (corruption du tas, manipulation des métadonnées malloc). Mitigations : ASLR, Stack Canaries, DEP/NX, CFI. L'exploitation moderne nécessite des techniques comme ROP/JOP pour contourner les protections. Voir aussi : ROP, ASLR, Stack Canary
112. ROP (Return-Oriented Programming)
Définition : Technique d'exploitation utilisant des séquences d'instructions existantes (gadgets) dans le code du programme pour exécuter du code arbitraire sans injecter de shellcode.
Contourne DEP/NX (mémoire non exécutable) en chaînant des gadgets terminant par ret. Chaque gadget effectue une opération simple (pop registre, move, syscall). L'attaquant construit une chaîne ROP sur la stack. Outils : ROPgadget , ropper , pwntools . Mitigation : CFI (Control Flow Integrity), Shadow Stack. Voir aussi : JOP, Buffer Overflow, CFI
113. ASLR (Address Space Layout Randomization)
Définition : Protection qui randomise les adresses de chargement des bibliothèques, du heap, de la stack et du code exécutable à chaque exécution.
Empêche l'attaquant de prédire les adresses mémoire pour l'exploitation. Bypass : information leak (format string, heap leak), brute-force (32-bit = 2^16 tentatives), return-to-plt. PIE (Position Independent Executable) étend l'ASLR au binaire principal. Activé par défaut sur tous les OS modernes. Voir aussi : PIE, DEP/NX, Stack Canary
114. Shellcode
Définition : Code machine injectable conçu pour être exécuté après exploitation d'une vulnérabilité. Typiquement lance un shell (/bin/sh) ou une connexion reverse.
Types : staged (petit loader + payload téléchargé) vs stageless (payload complet). Contraintes : null-free (pas de 0x00 pour les strings), taille limitée, encodage pour éviter les filtres. msfvenom (Metasploit) génère des shellcodes multi-plateformes. Le shellcode moderne évite l'exécution en mémoire non-exécutable via ROP. Voir aussi : ROP, Metasploit, Meterpreter
115. SQL Injection (SQLi)
Définition : Vulnérabilité web où l'attaquant injecte du code SQL malveillant dans les requêtes de l'application pour manipuler la base de données.
Types : In-band (UNION-based, error-based), Blind (boolean-based, time-based), Out-of-band (DNS, HTTP exfiltration). Outils : sqlmap (automatisation complète). Prévention : prepared statements (parameterized queries), ORM, WAF, validation d'entrée. Toujours #1 OWASP Top 10 historiquement. Voir aussi : XSS, OWASP, Prepared Statements
116. XSS (Cross-Site Scripting)
Définition : Vulnérabilité web permettant l'injection de code JavaScript malveillant dans les pages vues par d'autres utilisateurs.
Types : Reflected (via URL, non persistant), Stored (persistant en DB, plus dangereux), DOM-based (manipulation du DOM côté client). Impact : vol de cookies/session, keylogging, phishing, crypto-mining. Prévention : encoding (HTML entities), CSP (Content Security Policy), sanitization (DOMPurify), HTTPOnly cookies. Voir aussi : SQLi, CSRF, CSP
117. CSRF (Cross-Site Request Forgery)
Définition : Attaque forçant un utilisateur authentifié à exécuter des actions non souhaitées sur une application web où il est connecté.
L'attaquant crée une page contenant une requête automatique (formulaire, image) vers le site cible. Le navigateur envoie automatiquement les cookies de session. Prévention : tokens CSRF (synchronizer token pattern), SameSite cookies , vérification du header Referer/Origin, re-authentification pour actions sensibles. Voir aussi : XSS, SameSite Cookie
118. SSRF (Server-Side Request Forgery)
Définition : Vulnérabilité où l'attaquant force le serveur à effectuer des requêtes HTTP vers des destinations non prévues, accédant à des ressources internes.
Impact : accès aux métadonnées cloud (169.254.169.254 — vol de credentials AWS/GCP), scan de ports internes, accès aux services non exposés (Redis, Elasticsearch). SSRF est le vecteur de la faille Capital One (2019). Prévention : allowlist de domaines/IPs, blocage des IP privées, résolution DNS sécurisée. Voir aussi : OWASP, Cloud Security
119. Metasploit Framework
Définition : Plateforme open source d'exploitation et de développement d'exploits, standard de facto pour le pentest et la recherche en sécurité.
Composants : exploits (>2000), payloads (shellcodes, Meterpreter), auxiliary (scanning, fuzzing), post (post-exploitation). Meterpreter est le payload avancé (in-memory, extensible). Metasploit Pro ajoute l'automatisation et le reporting. Alternative : Cobalt Strike (commercial, C2 avancé). Voir aussi : Meterpreter, Cobalt Strike
120. Cobalt Strike
Définition : Plateforme de simulation d'adversaire (adversary simulation) utilisée par les Red Teams pour émuler les TTPs d'APT avancés.
Fonctionnalités : Beacon (implant C2 furtif), Malleable C2 (profils de communication customisables), spear phishing, lateral movement, privilege escalation. Cobalt Strike est aussi massivement utilisé par les attaquants réels (versions piratées). Alternatives open source : Sliver , Havoc , Mythic . Voir aussi : Metasploit, C2 Framework, Red Team
16. Cloud Security
Sécurisation des environnements cloud : AWS, Azure, GCP, multi-cloud et cloud-native.
121. CSPM (Cloud Security Posture Management)
Définition : Solution qui identifie et remédie les erreurs de configuration dans les environnements cloud (AWS, Azure, GCP) en continu.
Détecte les S3 buckets publics, les security groups ouverts, le chiffrement manquant, les comptes sans MFA. Les solutions : Prisma Cloud (Palo Alto), Wiz , Orca Security , AWS Security Hub , Microsoft Defender for Cloud . Les misconfiguration cloud sont responsables de la majorité des breaches cloud. Voir aussi : CNAPP, Cloud Security
122. CNAPP (Cloud-Native Application Protection Platform)
Définition : Plateforme unifiée combinant CSPM, CWPP, CIEM et sécurité du pipeline CI/CD pour la protection complète des applications cloud-native.
CNAPP converge les outils de sécurité cloud fragmentés. Fonctions : posture management (CSPM), protection des workloads (CWPP), gestion des identités cloud (CIEM), scanning de code/conteneurs, détection à l'exécution. Leaders : Wiz , Prisma Cloud , Orca , Lacework , Sysdig . Voir aussi : CSPM, CWPP, CIEM
123. CWPP (Cloud Workload Protection Platform)
Définition : Solution protégeant les workloads cloud (VMs, conteneurs, serverless) contre les menaces à l'exécution.
Fonctionnalités : vulnerability scanning, runtime protection, file integrity monitoring, network segmentation. Protège les conteneurs Docker/Kubernetes, les VMs et les fonctions Lambda/Functions. Solutions : Sysdig Secure , Aqua Security , Prisma Cloud Compute , Falcon Cloud Security . Voir aussi : CNAPP, Container Security
124. Container Security
Définition : Ensemble de pratiques sécurisant le cycle de vie des conteneurs : build (scanning d'images), deploy (admission control) et runtime (détection d'anomalies).
Risques : images avec vulnérabilités connues, secrets hardcodés, conteneurs privilégiés, escape de conteneur. Outils : Trivy (scanning), Falco (runtime detection), OPA/Gatekeeper (policy), Kyverno (Kubernetes policy). Le scanning d'images dans le CI/CD est essentiel : bloquer les déploiements d'images vulnérables. Voir aussi : Kubernetes Security, CWPP, Trivy
125. Kubernetes Security
Définition : Sécurisation des clusters Kubernetes : authentification, autorisation (RBAC), network policies, pod security, secrets management.
Risques K8s : RBAC trop permissif, pods en root, secrets en clair dans etcd, API server exposé, dashboards publics. Bonnes pratiques : Pod Security Standards (restricted/baseline), Network Policies (Calico, Cilium), OPA/Gatekeeper , scanning avec kubeaudit /kube-bench (CIS Benchmarks). Cilium ajoute le eBPF-based networking et security. Voir aussi : Container Security, RBAC, Cilium
126. IAM Cloud (Identity and Access Management)
Définition : Gestion des identités et accès dans les environnements cloud : utilisateurs, rôles, politiques et permissions.
Chaque cloud a son IAM : AWS IAM (policies JSON, roles, STS), Azure RBAC + Entra ID , GCP IAM (bindings, service accounts). Risques : politiques trop permissives (*, AdministratorAccess), clés d'accès long-terme, absence de MFA. Le CIEM (Cloud Infrastructure Entitlement Management) audite et optimise les permissions cloud. Voir aussi : CIEM, Least Privilege
127. Infrastructure as Code Security
Définition : Sécurisation des templates IaC (Terraform, CloudFormation, Pulumi) pour prévenir les erreurs de configuration avant le déploiement.
Outils de scanning IaC : Checkov (Bridgecrew/Prisma), tfsec , KICS (Checkmarx), Snyk IaC . Intégration dans le CI/CD pour bloquer les configurations non conformes. Vérifie : chiffrement activé, accès public bloqué, logging activé, IAM minimal. Le shift-left de la sécurité cloud. Voir aussi : DevSecOps, Terraform, CSPM
128. Serverless Security
Définition : Sécurisation des fonctions serverless (AWS Lambda, Azure Functions, GCP Cloud Functions) avec des défis spécifiques liés à l'éphémérité et au modèle d'exécution.
Risques : injection de code via événements (API Gateway, S3, SNS), permissions IAM excessives, dépendances vulnérables, exfiltration via variables d'environnement. L'absence de serveur persistant élimine certains risques (patching) mais en crée d'autres (observabilité limitée, cold start manipulation). Outils : Protego , PureSec (acquis par Palo Alto). Voir aussi : Cloud Security, Lambda
129. Cloud Workload Identity
Définition : Identité assignée à un workload cloud (VM, conteneur, fonction) pour l'authentification aux services sans credentials statiques.
Élimine les clés d'accès long-terme. Solutions : AWS IAM Roles for EC2/EKS , Azure Managed Identity , GCP Workload Identity Federation , SPIFFE/SPIRE (standard ouvert). Le Workload Identity est préféré aux service account keys car les credentials sont temporaires et automatiquement rotés. Voir aussi : IAM, SPIFFE, Service Account
130. Cloud Detection and Response (CDR)
Définition : Capacité de détection et réponse aux menaces spécifiques aux environnements cloud, intégrée aux XDR ou en solution dédiée.
Analyse les logs cloud (CloudTrail, Azure Activity Log, GCP Audit Log), détecte les comportements anormaux (IAM abuse, data exfiltration, cryptomining) et orchestre la réponse. Solutions : Wiz Defend , Sysdig Secure , CrowdStrike Cloud Detection , Microsoft Defender for Cloud . Voir aussi : XDR, CSPM, Cloud Security
17. Identity & Access Management
Gestion des identités numériques, authentification, autorisation et gouvernance des accès.
131. MFA (Multi-Factor Authentication)
Définition : Authentification exigeant au moins deux facteurs distincts : quelque chose que l'on sait (mot de passe), possède (téléphone) ou est (biométrie).
Types : TOTP (Google Authenticator), FIDO2/WebAuthn (clé physique, passkey — résistant au phishing), SMS/appel (faible, vulnérable au SIM swap), push notification (vulnérable au MFA fatigue/bombing). FIDO2 est le standard recommandé car il est résistant au phishing et au replay. Microsoft et Google poussent les passkeys comme remplacement des mots de passe. Voir aussi : FIDO2, Passkey, SSO
132. FIDO2 / Passkeys
Définition : Standard d'authentification sans mot de passe basé sur la cryptographie asymétrique, résistant au phishing par conception.
FIDO2 = WebAuthn (API navigateur) + CTAP (protocole clé physique). Les passkeys (synced credentials) étendent FIDO2 au cloud : la clé privée est synchronisée via iCloud/Google/Microsoft, éliminant le besoin de clé physique. Résistant au phishing car l'authentification est liée au domaine (origin binding). Supporté par Apple, Google, Microsoft, 1Password. Voir aussi : MFA, WebAuthn, Passwordless
133. SSO (Single Sign-On)
Définition : Mécanisme permettant à un utilisateur de s'authentifier une seule fois pour accéder à toutes les applications autorisées sans re-saisir ses credentials.
Protocoles : SAML 2.0 (XML, enterprise legacy), OpenID Connect (OIDC, basé sur OAuth 2.0, moderne), Kerberos (Active Directory). Fournisseurs : Okta , Microsoft Entra ID , Google Workspace , Ping Identity , Keycloak (open source). Le SSO réduit la fatigue de mots de passe mais centralise le risque : compromission du SSO = accès à tout. Voir aussi : SAML, OIDC, OAuth 2.0
134. OAuth 2.0
Définition : Framework d'autorisation permettant à une application tierce d'accéder à des ressources au nom d'un utilisateur sans exposer ses credentials.
OAuth 2.0 est un framework d'autorisation (pas d'authentification — c'est OIDC). Flows : Authorization Code (applications web), PKCE (mobile/SPA), Client Credentials (machine-to-machine). Risques : token theft, redirect URI manipulation, CSRF, scope abuse. OAuth 2.1 simplifie et durcit le standard (PKCE obligatoire, suppression des flows implicites). Voir aussi : OIDC, SAML, JWT
135. PAM (Privileged Access Management)
Définition : Solution gérant et sécurisant les accès aux comptes à privilèges (admin, root, service accounts) via vaulting, rotation et monitoring.
Fonctionnalités : credential vaulting (coffre-fort de mots de passe), session recording (enregistrement vidéo des sessions admin), just-in-time access (privilèges temporaires), password rotation automatique. Solutions : CyberArk , BeyondTrust , Delinea (ex-Thycotic), HashiCorp Vault (secrets management). PAM est critique pour bloquer le mouvement latéral. Voir aussi : Least Privilege, Vault
136. Active Directory (AD)
Définition : Service d'annuaire Microsoft gérant les identités, authentification (Kerberos/NTLM) et politiques de groupe (GPO) dans les réseaux d'entreprise Windows.
AD est la cible #1 des attaquants internes : Kerberoasting (extraction de tickets de service), AS-REP Roasting , DCSync (réplication de hashes), Golden/Silver Ticket (forger des tickets Kerberos), GPO abuse . Outils d'audit : BloodHound (graphe d'attaque AD), PingCastle (audit de sécurité). La migration vers Microsoft Entra ID (Azure AD) est en cours. Voir aussi : Kerberos, BloodHound, Entra ID
137. Kerberos
Définition : Protocole d'authentification réseau basé sur les tickets, utilisé par Active Directory. Utilise le KDC (Key Distribution Center) pour émettre des TGT et des tickets de service.
Attaques : Kerberoasting (demander des TGS pour des comptes de service et les cracker offline), AS-REP Roasting (comptes sans pre-auth), Pass-the-Ticket (réutiliser des tickets volés), Golden Ticket (forger un TGT avec le hash krbtgt), Silver Ticket (forger un TGS). Détection : Event ID 4769 (TGS request), monitoring des requêtes RC4 vs AES. Voir aussi : Active Directory, NTLM
138. JWT (JSON Web Token)
Définition : Standard ouvert (RFC 7519) pour la transmission sécurisée d'informations entre parties sous forme de tokens signés (JWS) ou chiffrés (JWE).
Structure : Header.Payload.Signature (base64url). Algorithmes : HS256 (HMAC, clé symétrique), RS256 (RSA, asymétrique), ES256 (ECDSA). Vulnérabilités courantes : alg:none (bypass de signature), key confusion (HS256 avec clé publique RSA), JKU/X5U injection , expiration absente. Validation : toujours vérifier la signature, l'expiration, l'issuer et l'audience. Voir aussi : OAuth 2.0, OIDC
139. Secret Management
Définition : Pratique de stockage, rotation et distribution sécurisés des secrets (clés API, mots de passe, certificats, tokens) utilisés par les applications.
Les secrets ne doivent JAMAIS être dans le code source ou les variables d'environnement en clair. Solutions : HashiCorp Vault (leader, dynamic secrets, PKI), AWS Secrets Manager , Azure Key Vault , GCP Secret Manager , Infisical (open source). Détection de secrets dans le code : Gitleaks , TruffleHog , GitGuardian . Voir aussi : Vault, DevSecOps, Gitleaks
140. SCIM (System for Cross-domain Identity Management)
Définition : Protocole standard pour automatiser la gestion du cycle de vie des identités (provisioning/deprovisioning) entre les systèmes.
SCIM permet au fournisseur d'identité (IdP) de créer, modifier et supprimer automatiquement les comptes dans les applications SaaS. Quand un employé quitte l'entreprise, SCIM désactive automatiquement ses comptes dans toutes les applications connectées. Supporté par Okta, Entra ID, Google Workspace, et la plupart des SaaS enterprise. Voir aussi : SSO, IAM, Provisioning
18. Forensics & Incident Response
Investigation numérique, réponse aux incidents et analyse post-compromission.
141. DFIR (Digital Forensics and Incident Response)
Définition : Discipline combinant l'investigation numérique (collecte et analyse de preuves) et la réponse aux incidents (containment, eradication, recovery).
Le DFIR suit un processus : identification , containment (limiter la propagation), eradication (supprimer la menace), recovery (restaurer les opérations), lessons learned . Outils forensiques : Autopsy /Sleuth Kit , FTK , X-Ways . Outils IR : Velociraptor , GRR , KAPE . Les standards : NIST SP 800-61r2 (Incident Response Guide). Voir aussi : Forensics, Incident Response
142. Memory Forensics
Définition : Analyse du contenu de la mémoire vive (RAM) pour identifier les malwares, les processus malveillants, les credentials et les artefacts d'attaque.
La mémoire contient des artefacts invisibles sur disque : processus injectés, clés de chiffrement, connexions réseau, commandes exécutées. Outils : Volatility 3 (framework de référence), Rekall . Techniques : listing de processus (pslist vs psscan pour détecter les processus cachés), analyse des DLLs injectées, extraction de credentials (mimikatz artifacts), timeline d'événements. Voir aussi : Volatility, DFIR
143. Disk Forensics
Définition : Analyse du contenu des supports de stockage (disques, SSDs, clés USB) pour récupérer les fichiers, reconstruire la timeline et identifier les artefacts d'activité.
Artefacts analysés : MFT (NTFS), $UsnJrnl (journal de modifications), Prefetch (exécutions de programmes), Event Logs , Registry hives (SAM, SYSTEM, SOFTWARE), Browser history , LNK files . Outils : Autopsy , FTK Imager , X-Ways . L'acquisition doit être forensiquement valide (write-blocker, hash d'intégrité SHA-256). Voir aussi : Memory Forensics, DFIR
144. Network Forensics
Définition : Capture et analyse du trafic réseau pour reconstruire les communications malveillantes, identifier les exfiltrations et tracer les mouvements latéraux.
Outils : Wireshark (analyse de paquets), Zeek (logs structurés), NetworkMiner (extraction de fichiers), Arkime (ex-Moloch, capture full-packet à grande échelle). La capture full-packet est coûteuse en stockage mais fournit la preuve la plus complète. Le NetFlow/IPFIX offre un compromis (métadonnées sans payload). Voir aussi : Wireshark, Zeek, PCAP
145. Chain of Custody
Définition : Procédure documentant la chaîne de possession des preuves numériques, de la collecte à la présentation devant un tribunal.
Chaque manipulation de la preuve doit être enregistrée : qui, quand, quoi, comment. Les hash d'intégrité (SHA-256) garantissent que la preuve n'a pas été altérée. Le non-respect invalide les preuves en justice. Outils : write-blockers matériels, formulaires de chaîne de custody, logiciels forensiques certifiés (EnCase, FTK). Voir aussi : DFIR, Evidence Handling
146. Malware Analysis
Définition : Processus d'étude d'un échantillon malveillant pour comprendre son comportement, ses capacités, ses IOC et son attribution.
Deux approches : Analyse statique (désassemblage sans exécution : IDA Pro, Ghidra, strings, headers PE) et Analyse dynamique (exécution en sandbox : ANY.RUN, Cuckoo/CAPE, Joe Sandbox). L'analyse avancée combine les deux. Outils : Ghidra (reverse engineering, NSA), x64dbg (debugging Windows), Frida (instrumentation dynamique). Voir aussi : Reverse Engineering, Sandbox
147. Incident Response Plan (IRP)
Définition : Document formel décrivant les procédures, rôles et responsabilités pour détecter, contenir, éradiquer et récupérer d'un incident de sécurité.
Un IRP couvre : classification des incidents (sévérité P1-P4), matrice d'escalade, procédures par type d'incident (ransomware, breach, DDoS), communication (interne, régulateur, presse, clients), et post-mortem. Le plan doit être testé régulièrement via des exercices de table-top (TTX) et des simulations. Standards : NIST SP 800-61r2, ISO 27035. Voir aussi : DFIR, Business Continuity
148. Ransomware
Définition : Malware qui chiffre les fichiers de la victime et demande une rançon (généralement en cryptomonnaie) pour la clé de déchiffrement.
Évolution : simple chiffrement → double extortion (chiffrement + vol de données) → triple extortion (+ DDoS ou menace des clients). Groupes majeurs (2024-2026) : LockBit, ALPHV/BlackCat, Cl0p, RansomHub. Vecteurs : phishing, RDP exposé, vulnérabilités (MOVEit, Citrix). Défenses : backups offline, EDR, segmentation, MFA, restriction de macros. Voir aussi : Double Extortion, RaaS
149. Velociraptor
Définition : Outil open source de DFIR et threat hunting déployé sur les endpoints, permettant la collecte de données forensiques à grande échelle via des requêtes VQL.
Velociraptor utilise VQL (Velociraptor Query Language) pour interroger les endpoints en temps réel ou collecter des artefacts forensiques. Fonctionnalités : collecte d'artefacts (MFT, Registry, Event Logs), hunting à travers des milliers d'endpoints, file acquisition, process monitoring. Architecture : serveur central + agents légers. Alternative à GRR (Google Rapid Response). Voir aussi : DFIR, Threat Hunting, GRR
150. Sandbox (Analyse Malware)
Définition : Environnement isolé (VM ou conteneur) où un malware est exécuté en toute sécurité pour observer son comportement sans risque pour l'infrastructure.
Les sandboxes enregistrent : processus créés, fichiers modifiés, clés de registre, connexions réseau, requêtes DNS, API calls. Solutions : ANY.RUN (interactive, cloud), CAPE (open source, successeur de Cuckoo), Joe Sandbox , Hybrid Analysis (VirusTotal). Les malwares modernes détectent les sandboxes (timing, artefacts VM, mouvement souris absent) et modifient leur comportement. Voir aussi : Malware Analysis, Evasion
19. DevSecOps
Intégration de la sécurité dans le cycle de développement logiciel et les pipelines CI/CD.
151. DevSecOps
Définition : Philosophie intégrant la sécurité à chaque étape du cycle DevOps : planification, développement, build, test, déploiement, monitoring.
Le « shift-left » de la sécurité : détecter et corriger les vulnérabilités le plus tôt possible (moins cher, plus rapide). Pratiques : SAST dans l'IDE, SCA dans le CI, DAST dans le staging, IaC scanning, secrets detection, container scanning. La sécurité devient la responsabilité de chaque développeur, pas seulement de l'équipe sécu. Voir aussi : Shift-Left, SAST, SCA
152. SAST (Static Application Security Testing)
Définition : Analyse de sécurité du code source sans l'exécuter, détectant les vulnérabilités par analyse statique des patterns de code.
Détecte : SQL injection, XSS, buffer overflow, hardcoded secrets, configuration insécure. Outils : SonarQube (polyvalent), Semgrep (lightweight, open source), Checkmarx , Fortify , CodeQL (GitHub). Intégration dans l'IDE (feedback immédiat) et le CI/CD (gate de qualité). Limitations : faux positifs élevés, ne détecte pas les vulnérabilités runtime. Voir aussi : DAST, SCA, DevSecOps
153. DAST (Dynamic Application Security Testing)
Définition : Test de sécurité d'une application en cours d'exécution, simulant des attaques depuis l'extérieur pour trouver les vulnérabilités runtime.
Teste l'application déployée (black-box) en envoyant des requêtes malveillantes et en analysant les réponses. Détecte : XSS, SQLi, SSRF, injection de headers, misconfigurations. Outils : OWASP ZAP (open source), Burp Suite (référence pentest web), Nuclei (templates communautaires). Intégré dans le pipeline CI/CD (staging/pre-prod). Voir aussi : SAST, IAST, Burp Suite
154. SCA (Software Composition Analysis)
Définition : Analyse des dépendances open source d'une application pour identifier les vulnérabilités connues, les licences problématiques et les risques supply chain.
Scanne les fichiers de dépendances (package.json, requirements.txt, go.mod, pom.xml) et les compare aux bases CVE/NVD. Outils : Snyk (leader, fix automatique), Dependabot (GitHub natif), Renovate , OWASP Dependency-Check , Trivy . Les vulnérabilités dans les dépendances sont responsables d'une majorité des breaches applicatives (Log4Shell, XZ Utils). Voir aussi : SBOM, DevSecOps, Supply Chain
155. IAST (Interactive Application Security Testing)
Définition : Technologie hybride SAST+DAST qui instrumente l'application au runtime pour détecter les vulnérabilités avec un contexte de flux de données complet.
L'agent IAST est déployé dans l'application et observe l'exécution en temps réel. Avantages : moins de faux positifs que SAST (contexte d'exécution), détecte les vulnérabilités que DAST ne voit pas (code path complet). Solutions : Contrast Security (pionnier), Synopsys Seeker , Checkmarx IAST . Idéal pour les tests en staging et QA. Voir aussi : SAST, DAST, RASP
156. RASP (Runtime Application Self-Protection)
Définition : Agent intégré dans l'application qui détecte et bloque les attaques en temps réel en production, avec une visibilité sur le contexte d'exécution.
RASP vit dans l'application et peut bloquer les SQLi, XSS et autres injections au point d'exécution (pas au périmètre comme un WAF). Avantage : protection contextuelle même pour les attaques qui contournent le WAF. Limitation : impact performance, nécessite l'instrumentation du runtime. Solutions : Contrast Protect , Sqreen (acquis par Datadog). Voir aussi : WAF, IAST, DevSecOps
157. GitOps Security
Définition : Application des principes de sécurité aux workflows GitOps où Git est la source de vérité pour l'infrastructure et les déploiements.
Risques GitOps : secrets dans les commits, RBAC Git trop permissif, pipelines CI/CD compromis, supply chain attack via le repo. Bonnes pratiques : secrets chiffrés (Sealed Secrets , SOPS , External Secrets Operator ), branch protection, signed commits, least privilege pour les service accounts CI/CD, audit trail complet. Voir aussi : DevSecOps, CI/CD Security
158. CI/CD Security
Définition : Sécurisation des pipelines d'intégration continue et de déploiement continu contre les attaques et les erreurs de configuration.
Risques : injection dans les pipelines (commande injection via variables), secrets exposés dans les logs, images de build compromises, permissions excessives des runners, dependency confusion. Protections : runners éphémères, OIDC pour les credentials cloud, scanning dans chaque étape, SLSA (Supply-chain Levels for Software Artifacts), vérification de provenance des artefacts. Voir aussi : DevSecOps, Supply Chain, SLSA
159. Shift-Left Security
Définition : Approche déplaçant les tests et vérifications de sécurité le plus tôt possible dans le cycle de développement logiciel.
Plus une vulnérabilité est détectée tôt, moins sa correction coûte cher (x100 entre dev et production). Pratiques : threat modeling en design, SAST dans l'IDE, pre-commit hooks (secrets), SCA dans le CI, IaC scanning avant déploiement. Le shift-left ne remplace pas la sécurité en production (defense in depth) mais la complète. Voir aussi : DevSecOps, SAST
160. Code Review Security
Définition : Revue manuelle ou assistée du code source pour identifier les vulnérabilités de sécurité que les outils automatisés ne détectent pas.
Les outils SAST manquent les vulnérabilités logiques, les flaws d'autorisation, et les erreurs de design. La revue humaine détecte : bypass d'authentification, race conditions, insecure direct object references (IDOR), business logic flaws. Bonnes pratiques : checklist OWASP, pair review, security champions dans chaque équipe, assistants IA (GitHub Copilot Security). Voir aussi : SAST, OWASP, Security Champion
20. Malware & Reverse Engineering
Analyse de logiciels malveillants, rétro-ingénierie et techniques d'évasion.
161. Fileless Malware
Définition : Malware résidant entièrement en mémoire, utilisant les outils système légitimes (PowerShell, WMI, .NET) sans écrire de fichiers sur disque.
Échappe aux antivirus traditionnels (signature sur fichier). Techniques : PowerShell in-memory execution , process injection (DLL injection, process hollowing), .NET assembly loading (Assembly.Load en mémoire), LOLBins (Living off the Land Binaries). Détection : AMSI (Anti-Malware Scan Interface), ETW monitoring, behavioral analysis, memory scanning. Voir aussi : LOLBins, Process Injection, AMSI
162. LOLBins (Living off the Land Binaries)
Définition : Binaires légitimes du système d'exploitation utilisés de manière malveillante pour exécuter du code, télécharger des payloads ou contourner les détections.
Exemples Windows : certutil (téléchargement), mshta (exécution HTA), regsvr32 (exécution DLL), rundll32 , wmic , bitsadmin . Exemples Linux : curl/wget , python , perl , nc . Le projet LOLBAS (lolbas-project.github.io) catalogue tous les LOLBins. Détection : monitoring des process command lines, Sysmon, EDR behavioral. Voir aussi : Fileless Malware, EDR Bypass
163. Process Injection
Définition : Technique d'injection de code dans un processus légitime pour exécuter du code malveillant dans le contexte d'un processus de confiance.
Techniques : DLL Injection (LoadLibrary), Process Hollowing (unmap + replace), Thread Hijacking , APC Injection , Process Doppelganging (NTFS transactions), Module Stomping . Détection : monitoring de CreateRemoteThread, NtMapViewOfSection, hooks sur ntdll.dll, ETW Microsoft-Windows-Threat-Intelligence provider. Voir aussi : Fileless Malware, EDR, ETW
164. Rootkit
Définition : Malware conçu pour maintenir un accès persistant et furtif en masquant sa présence au système d'exploitation et aux outils de sécurité.
Types : User-mode (hooks IAT/EAT, LD_PRELOAD), Kernel-mode (hooks SSDT, DKOM — Direct Kernel Object Manipulation), Bootkits (infection du bootloader, pré-OS), Firmware rootkits (UEFI). Détection : comparaison cross-view (usermode vs kernel), integrity checking, memory analysis (Volatility). Les rootkits UEFI survivent au reformatage du disque. Voir aussi : Bootkit, UEFI, Persistence
165. Ghidra
Définition : Framework de rétro-ingénierie open source développé par la NSA. Décompilateur multi-architecture supportant x86, ARM, MIPS et plus.
Fonctionnalités : désassembleur, décompilateur (code C pseudo), analyse de data flow, scripting (Java/Python), collaboration multi-utilisateur. Alternative gratuite à IDA Pro ($). Extensible via plugins. L'IA (GPT, Claude) peut assister l'analyse Ghidra en expliquant le code décompilé et en identifiant les patterns cryptographiques ou malveillants. Voir aussi : IDA Pro, Reverse Engineering, Frida
166. Packing / Unpacking
Définition : Technique de compression/chiffrement d'un exécutable pour empêcher l'analyse statique. Le packer déchiffre le code original en mémoire à l'exécution.
Packers courants : UPX (simple, détectable), Themida/WinLicense (anti-debug, anti-VM), VMProtect (virtualisation de code), packers custom des APT. L'unpacking nécessite : identification du packer (Detect It Easy, ExeInfoPE), exécution jusqu'à l'OEP (Original Entry Point), dump de la mémoire. Les packers modernes utilisent la virtualisation de code (chaque instruction est traduite en bytecode custom). Voir aussi : Obfuscation, Anti-Analysis
167. C2 Framework (Command and Control)
Définition : Infrastructure de communication permettant à un attaquant de contrôler les implants déployés sur les systèmes compromis.
Les frameworks C2 modernes supportent : protocoles de communication multiples (HTTP/S, DNS, SMB, WireGuard), chiffrement des communications, sleep jitter (anti-détection), profils de communication customisables. Open source : Sliver , Havoc , Mythic . Commercial : Cobalt Strike , Brute Ratel . La détection des C2 repose sur l'analyse des patterns de communication (beaconing), le JA3/JA4 fingerprinting et la threat intelligence. Voir aussi : Cobalt Strike, Beacon, Red Team
168. Anti-Analysis Techniques
Définition : Méthodes utilisées par les malwares pour empêcher ou ralentir l'analyse par les chercheurs en sécurité.
Techniques : Anti-debugging (IsDebuggerPresent, timing checks, NtQueryInformationProcess), Anti-VM (détection VMware/VirtualBox/Hyper-V via artefacts), Anti-sandbox (délai d'exécution, vérification d'interaction utilisateur, environnement checks), String obfuscation (chiffrement/encodage des strings), Control flow obfuscation (opaque predicates, flattening). Voir aussi : Sandbox Evasion, Packing
169. AMSI (Anti-Malware Scan Interface)
Définition : Interface Windows permettant aux moteurs antivirus d'inspecter le contenu des scripts (PowerShell, VBScript, JavaScript, .NET) avant leur exécution.
AMSI intercepte les scripts à l'exécution — même s'ils sont obfusqués ou chargés en mémoire (fileless). Bypass courants : patching amsi.dll en mémoire (modification de AmsiScanBuffer), reflection (.NET pour modifier les champs AMSI), obfuscation (contourner les signatures). Les EDR modernes détectent les bypass AMSI comme des indicateurs d'activité malveillante. Voir aussi : ETW, PowerShell, Fileless
170. Persistence (Persistance)
Définition : Techniques permettant à un malware ou un attaquant de maintenir son accès au système compromis malgré les redémarrages, les changements de credentials et les nettoyages.
Techniques Windows : Registry Run keys , Scheduled Tasks , Services , WMI Subscriptions , DLL Search Order Hijacking , COM Objects , Boot/Logon scripts . Techniques Linux : crontab , systemd services , .bashrc/.profile , SSH authorized_keys , LD_PRELOAD . MITRE ATT&CK Tactic TA0003 catalogue >50 techniques de persistence. Voir aussi : Rootkit, Registry, Scheduled Task
21. Compliance & Gouvernance
Cadres réglementaires, normes de sécurité et gouvernance de la cybersécurité.
171. ISO 27001
Définition : Norme internationale pour les systèmes de management de la sécurité de l'information (SMSI). Certification la plus reconnue en cybersécurité.
Définit les exigences pour établir, implémenter, maintenir et améliorer un SMSI. L'Annexe A contient 93 contrôles (version 2022) organisés en 4 thèmes : organisationnel, humain, physique, technologique. La certification est délivrée par un organisme accrédité après audit. Complémentaires : ISO 27002 (guide de bonnes pratiques), ISO 27005 (gestion des risques), ISO 27017/27018 (cloud). Voir aussi : SOC 2, NIST CSF
172. SOC 2 (Service Organization Control)
Définition : Framework d'audit américain évaluant la sécurité, la disponibilité, l'intégrité, la confidentialité et la privacy des services cloud et SaaS.
Deux types : Type I (design des contrôles à un instant T) et Type II (efficacité opérationnelle des contrôles sur 6-12 mois). Critères basés sur les Trust Service Criteria (TSC) de l'AICPA. Quasi-obligatoire pour vendre du SaaS B2B aux entreprises américaines. Automatisation : Vanta , Drata , Secureframe , Sprinto . Voir aussi : ISO 27001, NIST CSF
173. NIST Cybersecurity Framework (CSF)
Définition : Cadre de référence américain organisant la cybersécurité en 6 fonctions : Govern, Identify, Protect, Detect, Respond, Recover (CSF 2.0, 2024).
Le NIST CSF est volontaire mais largement adopté. CSF 2.0 ajoute la fonction Govern (gouvernance, risk management, supply chain) aux 5 fonctions originales. Chaque fonction contient des catégories et sous-catégories mappées aux contrôles des autres frameworks (ISO 27001, CIS Controls, COBIT). Idéal pour structurer un programme de cybersécurité. Voir aussi : ISO 27001, CIS Controls
174. RGPD / GDPR
Définition : Règlement Général sur la Protection des Données (UE). Régit la collecte, le traitement et le stockage des données personnelles des résidents européens.
Principes : minimisation des données, limitation de la finalité, exactitude, limitation du stockage, intégrité/confidentialité, accountability. Droits des personnes : accès, rectification, effacement (droit à l'oubli), portabilité. Amendes : jusqu'à 4% du CA mondial ou 20M€. Le DPO (Data Protection Officer) est obligatoire pour certaines organisations. Impact technique : chiffrement, pseudonymisation, privacy by design. Voir aussi : DPO, Privacy by Design, PIA
175. NIS2 (Network and Information Security 2)
Définition : Directive européenne (2024) élargissant les obligations de cybersécurité aux entités essentielles et importantes dans 18 secteurs critiques.
NIS2 remplace NIS1 avec un périmètre élargi : énergie, transport, santé, eau, numérique, administration publique, espace, alimentation. Obligations : analyse de risque, gestion des incidents (notification 24h), sécurité supply chain, tests de pénétration, formation. Sanctions : jusqu'à 10M€ ou 2% du CA. Transposition nationale en cours dans chaque État membre. Voir aussi : DORA, RGPD
176. PCI-DSS
Définition : Payment Card Industry Data Security Standard. Norme de sécurité pour toutes les organisations qui stockent, traitent ou transmettent des données de cartes de paiement.
12 exigences : firewall, changement des défauts, protection des données stockées, chiffrement en transit, antivirus, développement sécurisé, restriction d'accès, authentification, sécurité physique, logging/monitoring, tests de sécurité, politique de sécurité. PCI-DSS v4.0 (2024) renforce : MFA, password 12+ chars, WAF, automated log review. Niveaux de conformité selon le volume de transactions. Voir aussi : ISO 27001, SOC 2
177. CIS Controls
Définition : Ensemble de 18 contrôles de sécurité prioritisés par le Center for Internet Security, basés sur les attaques réelles les plus courantes.
Les 18 contrôles CIS v8 sont organisés en 3 groupes d'implémentation (IG1, IG2, IG3) selon la maturité. IG1 (« cyber hygiène ») couvre les bases : inventaire des actifs, gestion des vulnérabilités, contrôle d'accès, logging, protection email/web, malware defense. Les CIS Benchmarks fournissent les configurations sécurisées détaillées pour chaque OS/application. Voir aussi : NIST CSF, ISO 27001
178. DORA (Digital Operational Resilience Act)
Définition : Règlement européen (2025) imposant des exigences de résilience numérique aux entités financières : banques, assurances, fintech, prestataires IT critiques.
Exigences : gestion des risques ICT, classification et reporting des incidents, tests de résilience (TLPT — pentest avancé), gestion des risques tiers (ICT third-party), partage d'information. DORA impose des tests de pénétration basés sur les menaces (threat-led) tous les 3 ans pour les entités significatives. Voir aussi : NIS2, Résilience
179. Zero Trust Maturity Model
Définition : Modèle CISA évaluant la maturité Zero Trust d'une organisation sur 5 piliers : Identity, Devices, Networks, Applications, Data.
Chaque pilier est évalué sur 4 niveaux : Traditional, Initial, Advanced, Optimal. L'EO 14028 (Biden) impose le Zero Trust aux agences fédérales US. Le modèle guide la priorisation des investissements et la roadmap de transformation. La maturité « Optimal » implique l'automatisation complète, le monitoring continu et l'adaptation dynamique des politiques. Voir aussi : Zero Trust, NIST, CISA
180. Cyber Insurance
Définition : Assurance couvrant les pertes financières résultant d'incidents de cybersécurité : ransomware, breach, interruption d'activité, frais juridiques.
Les assureurs exigent de plus en plus de contrôles de sécurité : MFA, EDR, backups, patching, plan IR. Les primes ont explosé suite aux ransomwares. Couverture typique : frais de réponse (forensics, notification, legal), perte d'exploitation, restauration, rançon (controversé), responsabilité civile (class action). Questionnaires de souscription de plus en plus techniques. Voir aussi : Risk Management, Ransomware
22. Hardware & Firmware Security
Sécurité matérielle, firmware, interfaces physiques et attaques hardware.
181. UEFI Secure Boot
Définition : Mécanisme de démarrage sécurisé vérifiant la signature cryptographique de chaque composant du boot chain (bootloader, drivers, OS) avant exécution.
Secure Boot utilise des clés stockées dans la NVRAM : PK (Platform Key), KEK (Key Exchange Key), db (allowed signatures), dbx (revoked signatures). Empêche les bootkits et rootkits pré-OS. Vulnérabilités : BlackLotus (2023, bypass Secure Boot via CVE-2022-21894), misconfiguration (Secure Boot désactivé). Linux supporte Secure Boot via les shims signés Microsoft. Voir aussi : UEFI, Bootkit, TPM
182. Side-Channel Attack
Définition : Attaque exploitant les fuites d'information physiques (timing, consommation électrique, émissions EM, cache) plutôt que les faiblesses algorithmiques.
Types : Timing attack (temps d'exécution variable selon les données), Power analysis (SPA/DPA — consommation électrique), Electromagnetic (émissions EM), Cache attack (Flush+Reload, Prime+Probe). Attaques célèbres : Spectre (speculation), Meltdown (out-of-order execution), Hertzbleed (frequency side-channel). Mitigation : constant-time code, cache partitioning. Voir aussi : Spectre, Meltdown, Cache Attack
183. Firmware Security
Définition : Sécurisation du firmware (BIOS/UEFI, BMC, NIC, SSD firmware) contre la compromission, l'injection de backdoors et la persistance pré-OS.
Le firmware opère avec les plus hauts privilèges (Ring -2 pour SMM, Ring -1 pour hyperviseur). Une compromission firmware survit au reformatage du disque et à la réinstallation de l'OS. Protections : Secure Boot , UEFI Capsule Update (mises à jour signées), Intel Boot Guard , AMD Platform Secure Boot . Outils d'analyse : CHIPSEC (Intel, audit firmware), UEFITool (extraction/analyse). Voir aussi : UEFI, TPM, Intel ME
184. Fault Injection
Définition : Technique d'attaque physique perturbant le fonctionnement normal d'un circuit (glitch) pour induire des erreurs exploitables.
Types : Voltage glitching (variation de tension), Clock glitching (perturbation de l'horloge), Electromagnetic fault injection (EMFI), Laser fault injection (précision micrométrique). Applications : bypass de Secure Boot, extraction de clés AES (DFA — Differential Fault Analysis), bypass de code PIN, extraction de firmware chiffré. Outils : ChipWhisperer (open source), NewAE . Voir aussi : Side-Channel, Hardware Hacking
185. JTAG/SWD Debug
Définition : Interfaces de debug matériel permettant l'accès direct au processeur pour la lecture/écriture de mémoire, le contrôle d'exécution et l'extraction de firmware.
JTAG (Joint Test Action Group) et SWD (Serial Wire Debug) sont des interfaces de debug standard. Un attaquant avec un accès physique peut : extraire le firmware complet, lire les clés de chiffrement en mémoire, modifier le code en cours d'exécution, bypasser l'authentification. Les fabricants désactivent JTAG en production, mais pas toujours (IoT/embedded). Outils : OpenOCD , J-Link , Bus Pirate . Voir aussi : Firmware, Hardware Hacking, IoT
186. Hardware Trojan
Définition : Circuit malveillant inséré dans un composant électronique pendant la fabrication, la conception ou la supply chain, créant une backdoor matérielle.
Les hardware trojans peuvent : exfiltrer des données (key leaking via side-channels intentionnels), désactiver des composants (kill switch), affaiblir la cryptographie (RNG biaisé). Détection difficile : analyse optique (comparaison avec le design golden), testing fonctionnel extensif, side-channel analysis (le trojan modifie la consommation). Géopolitiquement sensible : la dépendance aux fonderies (TSMC, Samsung) crée des risques supply chain. Voir aussi : Supply Chain, Chip Security
187. Bluetooth Security
Définition : Sécurité du protocole Bluetooth (Classic et BLE) et des attaques spécifiques : BlueBorne, KNOB, BIAS, BrakTooth.
Vulnérabilités : BlueBorne (2017, RCE sans pairing), KNOB (Key Negotiation of Bluetooth, réduction de l'entropie de clé), BIAS (Bluetooth Impersonation AttackS), BrakTooth (2021, crash de piles Bluetooth). BLE (Bluetooth Low Energy) a son propre set de vulnérabilités : BLESA (spoofing), SweynTooth . Les appareils IoT avec Bluetooth sont souvent vulnérables à cause du firmware non mis à jour. Voir aussi : IoT Security, Wireless
188. Wi-Fi Security (802.11)
Définition : Protocoles de sécurité Wi-Fi et leurs vulnérabilités : WEP (cassé), WPA2 (KRACK), WPA3 (Dragonblood), Wi-Fi 6E/7.
Évolution : WEP (cassé en minutes) → WPA/WPA2 (TKIP/AES-CCMP, vulnérable KRACK 2017) → WPA3 (SAE/Dragonfly, résistant aux attaques offline dictionary, forward secrecy). Attaques : KRACK (key reinstallation), Dragonblood (timing attack sur WPA3), PMKID attack (capture hashcat sans client), Evil Twin (faux AP). Outils : aircrack-ng , bettercap , Wifite . Voir aussi : Wireless, 802.1X
189. USB Security
Définition : Risques et protections liés aux interfaces USB : BadUSB, USB Rubber Ducky, USB Drop Attack, USB-C authentication.
BadUSB : modification du firmware USB pour émuler un clavier et injecter des commandes. USB Rubber Ducky (Hak5) : dispositif d'injection de frappes programmable. USB Armory : plateforme de sécurité USB. Protections : USBGuard (Linux, whitelist de devices), USB-C Authentication (standard USB-IF, certificats), group policies Windows (blocage USB). Voir aussi : BadUSB, Physical Security
190. Physical Security (Sécurité Physique)
Définition : Mesures protégeant les actifs physiques (serveurs, datacenter, postes de travail) contre l'accès non autorisé, le vol et le sabotage.
Couches : périmètre (clôtures, caméras, badges), bâtiment (contrôle d'accès, biométrie, mantrap/sas), salle serveur (racks verrouillés, détection d'intrusion, refroidissement), device (câbles de sécurité, chiffrement de disque, port locks). Le social engineering exploite les faiblesses de sécurité physique (tailgating, impersonation). Les Red Teams incluent souvent un volet physique. Voir aussi : Social Engineering, Tailgating
23. IA Avancée, NLP & Vision
Concepts avancés d'intelligence artificielle, traitement du langage naturel et vision par ordinateur appliqués à la cybersécurité.
191. Transformer Architecture
Définition : Architecture de réseau de neurones basée sur l'attention (self-attention) qui est le fondement de tous les modèles de langage modernes (GPT, BERT, LLaMA).
Introduit dans « Attention Is All You Need » (Vaswani et al., 2017). Composants : Self-Attention (chaque token attend à tous les autres), Multi-Head Attention (plusieurs perspectives en parallèle), Feed-Forward Networks , Positional Encoding . Variantes : encoder-only (BERT, classification), decoder-only (GPT, génération), encoder-decoder (T5, traduction). Le scaling des Transformers a conduit aux LLMs actuels. Voir aussi : LLM, Attention, BERT, GPT
192. BERT (Bidirectional Encoder Representations from Transformers)
Définition : Modèle de langage pré-entraîné de Google (2018) utilisant un encodeur bidirectionnel pour comprendre le contexte des mots dans les deux directions.
BERT est pré-entraîné sur deux tâches : Masked Language Model (prédire les mots masqués) et Next Sentence Prediction. Fine-tuné pour : classification de texte, NER (Named Entity Recognition), question answering, sentiment analysis. Applications cybersécurité : classification de logs, détection de phishing, analyse de CVE, catégorisation de threat intel. Successeurs : RoBERTa, DeBERTa, ELECTRA. Voir aussi : Transformer, NLP, GPT
193. GPT (Generative Pre-trained Transformer)
Définition : Famille de modèles de langage d'OpenAI basés sur un decoder Transformer, pré-entraînés sur de vastes corpus de texte pour la génération de langage naturel.
Évolution : GPT-1 (117M params, 2018) → GPT-2 (1.5B) → GPT-3 (175B) → GPT-4 (>1T estimé) → GPT-4o (multimodal) → o1/o3 (raisonnement). Capacités : génération de texte, code, analyse, raisonnement, vision. En cybersécurité : génération de rapports, analyse de logs, assistance au threat hunting, mais aussi génération de phishing et de malware par les attaquants. Voir aussi : LLM, Transformer, ChatGPT
194. Diffusion Model
Définition : Architecture de deep learning pour la génération d'images/vidéos/audio basée sur le processus de diffusion : ajout progressif de bruit puis débruitage.
Fonctionnement : forward process (ajout de bruit gaussien par étapes), reverse process (réseau de neurones apprend à débruiter). Modèles : Stable Diffusion (open source, Stability AI), DALL-E (OpenAI), Midjourney . Impact cybersécurité : génération de deepfakes de haute qualité, création d'images de phishing réalistes, génération de faux documents. Contrôle : watermarking (C2PA), détection de contenu généré. Voir aussi : Deepfake, IA Générative
195. Reinforcement Learning (Apprentissage par Renforcement)
Définition : Paradigme de ML où un agent apprend à prendre des décisions optimales dans un environnement en maximisant une récompense cumulative.
L'agent interagit avec l'environnement : état → action → récompense → nouvel état. Algorithmes : DQN , PPO (Proximal Policy Optimization — utilisé pour RLHF), A3C , SAC . Applications cybersécurité : RLHF (alignement des LLMs), automatisation du pentest (agents RL explorant des réseaux), optimisation des politiques de détection, adaptive defense. Voir aussi : RLHF, DPO, Agent IA
196. Attention Mechanism
Définition : Mécanisme permettant au modèle de se concentrer sur les parties les plus pertinentes de l'entrée pour chaque position de sortie, calculant des poids d'importance.
Formule : Attention(Q,K,V) = softmax(QK^T/√dk)V. Self-attention : chaque position attend à toutes les autres (complexité O(n²)). Cross-attention : attend à une autre séquence (ex: encoder dans encoder-decoder). Innovations : Flash Attention (IO-aware, 2-4x speedup), Multi-Query Attention (MQA, KV cache réduit), Grouped-Query Attention (GQA, compromis MHA/MQA). Voir aussi : Transformer, Flash Attention
197. Computer Vision (Vision par Ordinateur)
Définition : Domaine de l'IA permettant aux machines d'interpréter et d'analyser les images et vidéos numériques.
Architectures : CNN (ConvNet — ResNet, EfficientNet), Vision Transformer (ViT), YOLO (détection d'objets temps réel). Applications cybersécurité : analyse de deepfakes, OCR de documents (data extraction), surveillance vidéo intelligente (anomaly detection), CAPTCHA solving, stéganographie visuelle. La convergence vision+langage (GPT-4V, LLaVA) permet l'analyse d'images de sécurité par des LLMs. Voir aussi : CNN, YOLO, Deepfake
198. Federated Learning
Définition : Technique de ML où le modèle est entraîné de manière décentralisée sur des données distribuées sans les centraliser, préservant la privacy.
Processus : le modèle global est envoyé aux participants, chacun l'entraîne sur ses données locales, seuls les gradients/poids sont agrégés centralement. Les données brutes ne quittent jamais le device. Utilisé par Google (Gboard), Apple (Siri), et en cybersécurité pour entraîner des modèles de détection sur des données sensibles (logs multi-organisations) sans les partager. Risques : model poisoning, gradient leakage. Voir aussi : Privacy, Differential Privacy
199. Deepfake
Définition : Contenu synthétique (vidéo, audio, image) généré par IA, reproduisant de manière réaliste l'apparence ou la voix d'une personne réelle.
Technologies : Face swap (DeepFaceLab, FaceSwap), Voice cloning (ElevenLabs, VALL-E), Video generation (Sora, Runway). Menaces : fraude au président (deepfake audio du CEO), manipulation d'élections, social engineering avancé. Détection : artefacts visuels (blink rate, lip sync), analyse spectrale audio, watermarking (C2PA/Content Credentials), modèles ML de détection. Voir aussi : Computer Vision, Social Engineering
200. Prompt Injection
Définition : Attaque sur les applications basées sur LLM où l'attaquant insère des instructions malveillantes dans le prompt pour détourner le comportement du modèle.
Types : Direct (l'utilisateur injecte directement), Indirect (injection via le contenu traité — email, page web, document). Impact : exfiltration de données du prompt système, bypass des guardrails, exécution d'actions non autorisées (si le LLM a des tool calls). Défenses : input validation, output filtering, guardrails (LlamaGuard, NeMo Guardrails), sandboxing des actions, prompt hardening. Voir aussi : Jailbreak LLM, Guardrails, AI Safety
24. IA pour la Cybersécurité
Applications de l'intelligence artificielle dans la détection de menaces, la défense et l'attaque.
201. AI-Powered Threat Detection
Définition : Utilisation du ML/DL pour détecter les menaces que les règles statiques ne capturent pas : anomalies comportementales, malwares inconnus, insider threats.
Modèles : anomaly detection (autoencoders, isolation forest), classification supervisée (Random Forest, XGBoost pour la classification de malware), deep learning (LSTM/Transformer pour l'analyse de séquences de logs). Intégré dans les SIEM (Splunk MLTK, Sentinel Fusion), les EDR (CrowdStrike ML engine) et les NDR (Darktrace, Vectra). Le défi : réduire les faux positifs tout en détectant les menaces inédites. Voir aussi : UEBA, ML, NDR
202. AI Red Teaming
Définition : Évaluation de la sécurité et de la robustesse des systèmes d'IA en simulant des attaques adversariales : prompt injection, jailbreak, data poisoning, model extraction.
Le AI Red Teaming teste les LLMs et les systèmes d'IA contre : jailbreak (contourner les guardrails), prompt injection (détourner le comportement), data poisoning (corrompre l'entraînement), model extraction (voler le modèle via les API). Microsoft, Google et OpenAI ont des équipes dédiées. Frameworks : Garak (NVIDIA), PyRIT (Microsoft), ART (IBM, Adversarial Robustness Toolbox). Voir aussi : Prompt Injection, Jailbreak
203. Adversarial Machine Learning
Définition : Domaine étudiant les vulnérabilités des modèles ML face aux entrées adversariales (inputs modifiés pour tromper le modèle).
Attaques : Evasion (modifier une entrée pour échapper à la détection : ajouter du bruit imperceptible à une image malware), Poisoning (corrompre les données d'entraînement), Model Extraction (reconstruire le modèle via des requêtes API), Membership Inference (déterminer si une donnée était dans le training set). Défenses : adversarial training, input preprocessing, certified defenses, differential privacy. Voir aussi : AI Red Teaming, Data Poisoning
204. LLM Security
Définition : Sécurité des applications basées sur les Large Language Models : prompt injection, data leakage, tool misuse, hallucinations exploitables.
Le OWASP Top 10 for LLM Applications catalogue les risques principaux : prompt injection (LLM01), insecure output handling (LLM02), training data poisoning (LLM03), model DoS (LLM04), supply chain vulnerabilities (LLM05). Les guardrails (NeMo Guardrails, LlamaGuard, Guardrails AI) filtrent les inputs/outputs. L'isolation des actions LLM (sandboxing) est critique quand le modèle a accès à des outils (MCP, function calling). Voir aussi : Prompt Injection, Guardrails
205. Copilot for Security
Définition : Assistant IA de Microsoft intégrant GPT-4 avec les données de sécurité Microsoft (Defender XDR, Sentinel, Intune) pour accélérer l'investigation et la réponse aux incidents.
Capacités : résumé d'incidents, analyse de scripts malveillants, génération de requêtes KQL, recommandations de remédiation, rapport d'incident automatique. S'intègre nativement avec l'écosystème Microsoft Security. Modèle de facturation par SCU (Security Compute Unit). Concurrent : Google Gemini for Security, CrowdStrike Charlotte AI. Voir aussi : Microsoft Sentinel, Defender XDR, IA
206. AI-Powered Phishing
Définition : Utilisation de l'IA générative (LLMs, voice cloning, deepfakes) pour créer des campagnes de phishing ultra-réalistes et personnalisées.
Les LLMs génèrent des emails de phishing grammaticalement parfaits, personnalisés (spear phishing) et dans n'importe quelle langue. Le voice cloning permet la fraude au président (vishing). Les deepfakes vidéo rendent les vidéoconférences frauduleuses possibles. Impact : les taux de succès du phishing IA sont 3-5x supérieurs au phishing traditionnel. Défenses : AI-powered email security (Abnormal Security), awareness training, DMARC/SPF/DKIM. Voir aussi : Social Engineering, Deepfake, Vishing
207. Autonomous Pentesting (IA)
Définition : Utilisation d'agents IA autonomes pour automatiser les tests d'intrusion : reconnaissance, scanning, exploitation et post-exploitation.
Les agents IA de pentest combinent LLMs (raisonnement, planification) avec des outils d'exploitation (Metasploit, nmap, sqlmap) pour exécuter des tests d'intrusion de manière autonome. Solutions : PentestGPT , HackerAI , agents basés sur AutoGPT/CrewAI. Limitations : manque de créativité pour les attaques non-standard, risque de dommage (les agents doivent être contraints), et qualité variable. Le pentest humain reste supérieur pour les attaques complexes. Voir aussi : Red Team, Agent IA
208. Data Poisoning
Définition : Attaque corrompant les données d'entraînement d'un modèle ML pour modifier son comportement de manière contrôlée par l'attaquant.
Types : availability attack (dégrader la performance générale), targeted attack (modifier le comportement pour des inputs spécifiques — backdoor), clean-label attack (les données empoisonnées semblent légitimes). Exemples : empoisonner un détecteur de spam pour qu'il accepte les emails de phishing, ou un classifieur de malware pour qu'il ignore un malware spécifique. Défense : validation des données, outlier detection, robust training. Voir aussi : Adversarial ML, Model Security
209. Model Extraction Attack
Définition : Attaque visant à reconstruire un modèle ML propriétaire en interrogeant systématiquement son API et en entraînant un modèle « student » sur les réponses.
L'attaquant envoie des requêtes à l'API du modèle cible, collecte les réponses (labels, probabilités), et entraîne un modèle substitute qui reproduit le comportement du modèle original. Impact : vol de propriété intellectuelle, découverte de vulnérabilités du modèle (transferability des adversarial examples). Défense : rate limiting, watermarking du modèle, réponses tronquées (pas de probabilités), détection d'anomalies dans les patterns de requêtes. Voir aussi : Adversarial ML, IP Theft
210. AI Governance
Définition : Cadre de politiques, processus et contrôles régissant le développement, le déploiement et l'utilisation responsable de l'intelligence artificielle dans une organisation.
Composants : inventaire des systèmes IA (AI registry), évaluation des risques (AI risk assessment), tests de biais et d'équité, transparence et explicabilité, privacy (PIA), monitoring en production, processus d'approbation éthique. Réglementations : EU AI Act (classification par risque, obligations par niveau), NIST AI RMF (Risk Management Framework), ISO 42001 (AI Management System). Les DPO et CISO sont de plus en plus impliqués dans la gouvernance IA. Voir aussi : EU AI Act, NIST AI RMF, Responsible AI
25. Sécurité Web
Sécurisation des applications web, APIs et architectures modernes.
211. OWASP Top 10
Définition : Liste des 10 risques de sécurité les plus critiques pour les applications web, maintenue par l'Open Web Application Security Project.
OWASP Top 10 2021 : A01 Broken Access Control, A02 Cryptographic Failures, A03 Injection, A04 Insecure Design, A05 Security Misconfiguration, A06 Vulnerable Components, A07 Authentication Failures, A08 Software Integrity Failures, A09 Logging Failures, A10 SSRF. Nouveau en 2021 : Insecure Design (shift-left) et Software Integrity (supply chain). La version 2025 est en préparation avec l'ajout des risques liés aux LLMs et APIs. Voir aussi : SQLi, XSS, SSRF
212. CSP (Content Security Policy)
Définition : Mécanisme de sécurité HTTP permettant aux sites web de déclarer les sources de contenu autorisées, prévenant les attaques XSS et l'injection de contenu.
CSP est défini via le header HTTP Content-Security-Policy. Directives : script-src (sources de scripts), style-src, img-src, connect-src (XHR/fetch), frame-ancestors (anti-clickjacking). Nonces et hashes permettent d'autoriser des scripts inline spécifiques. CSP Level 3 ajoute strict-dynamic pour simplifier le déploiement. Le report-uri/report-to permet de monitorer les violations en production. Voir aussi : XSS, CORS, HTTP Security Headers
213. CORS (Cross-Origin Resource Sharing)
Définition : Mécanisme HTTP permettant à un serveur de déclarer quelles origines sont autorisées à accéder à ses ressources, contournant la Same-Origin Policy.
CORS utilise les headers Access-Control-Allow-Origin, Access-Control-Allow-Methods, Access-Control-Allow-Headers. Les requêtes « simples » (GET, POST avec content-type basique) sont envoyées directement. Les requêtes « preflighted » (PUT, DELETE, headers custom) déclenchent un OPTIONS preflight. Vulnérabilité courante : Access-Control-Allow-Origin: * avec Access-Control-Allow-Credentials: true — impossible mais des misconfiguration de wildcard dynamique exposent les APIs. Voir aussi : CSP, Same-Origin Policy
214. API Security
Définition : Sécurisation des interfaces de programmation (REST, GraphQL, gRPC) contre les attaques spécifiques aux APIs.
OWASP API Security Top 10 (2023) : broken object-level authorization (BOLA/IDOR), broken authentication, broken object property-level authorization, unrestricted resource consumption, broken function-level authorization. Protections : authentication forte (OAuth 2.0, API keys avec rotation), rate limiting, input validation, authorization granulaire, logging complet. Outils : 42Crunch , Salt Security , Noname Security . Voir aussi : OWASP, OAuth 2.0, Rate Limiting
215. GraphQL Security
Définition : Risques et protections spécifiques aux APIs GraphQL : introspection, injection, DoS par requêtes profondes, authorization bypass.
Risques : introspection (exposition du schéma complet), query depth attack (requêtes récursives imbriquées → DoS), field suggestion (devinette de champs), batching attack (multiple queries en une requête), IDOR (contournement d'autorisation par ID). Protections : désactiver l'introspection en production, limiter la profondeur/complexité des requêtes, rate limiting, authorization field-level. Voir aussi : API Security, REST
216. Rate Limiting
Définition : Mécanisme limitant le nombre de requêtes qu'un client peut envoyer dans une fenêtre de temps donnée, protégeant contre le brute force et le DoS.
Algorithmes : Fixed Window (simple, burst possible), Sliding Window (plus précis), Token Bucket (flexible, burst contrôlé), Leaky Bucket (débit constant). Implémentation : WAF, API Gateway (Kong, Traefik), Cloudflare, application-level (express-rate-limit). Le rate limiting par IP est contournable (rotation de proxies) — combiner avec rate limiting par compte/token. Voir aussi : DDoS, API Security, WAF
217. Subresource Integrity (SRI)
Définition : Mécanisme de sécurité web permettant de vérifier l'intégrité des ressources externes (JS, CSS) via un hash cryptographique dans la balise HTML.
Format : <script src="cdn.js" integrity="sha384-hash..." crossorigin="anonymous">. Si le fichier CDN est modifié (compromission du CDN, supply chain attack), le navigateur refuse de l'exécuter. Utilise SHA-256, SHA-384 ou SHA-512. Essentiel quand on charge des scripts depuis des CDN tiers (cdnjs, unpkg, jsdelivr). Complémente le CSP pour la protection contre les supply chain attacks web. Voir aussi : CSP, Supply Chain, CDN Security
218. HTTP Security Headers
Définition : En-têtes HTTP de sécurité configurés côté serveur pour renforcer la sécurité des applications web côté client.
Headers essentiels : Strict-Transport-Security (HSTS, force HTTPS), Content-Security-Policy (CSP), X-Content-Type-Options: nosniff , X-Frame-Options (anti-clickjacking), Referrer-Policy , Permissions-Policy (contrôle des API navigateur). Outils de test : SecurityHeaders.com , Mozilla Observatory . Un score A+ sur SecurityHeaders.com est l'objectif pour tout site web professionnel. Voir aussi : CSP, HSTS, XSS
219. Clickjacking
Définition : Attaque trompant l'utilisateur en superposant une page web invisible sur un contenu visible, capturant les clics de l'utilisateur sur la page cachée.
L'attaquant intègre le site cible dans un iframe invisible et place des éléments visuels par-dessus. L'utilisateur pense cliquer sur le contenu visible mais interagit avec la page cachée (like Facebook, transfert bancaire, changement de mot de passe). Prévention : X-Frame-Options: DENY , CSP frame-ancestors 'none' , SameSite cookies . Voir aussi : XSS, CSP, X-Frame-Options
220. Web Cache Poisoning
Définition : Attaque manipulant le comportement du cache web pour servir du contenu malveillant à d'autres utilisateurs via des headers non-clés (unkeyed headers).
L'attaquant envoie des requêtes avec des headers spéciaux (X-Forwarded-Host, X-Original-URL) qui modifient la réponse sans changer la clé de cache. La réponse empoisonnée est mise en cache et servie à tous les utilisateurs suivants. Découverte popularisée par James Kettle (PortSwigger). Prévention : normaliser les headers, limiter les headers qui influencent la réponse, vary header approprié, cache key incluant tous les headers pertinents. Voir aussi : CDN, Cache, WAF
26. Sécurité Mobile
Sécurité des applications et plateformes mobiles iOS et Android.
221. OWASP Mobile Top 10
Définition : Liste des 10 risques de sécurité les plus critiques pour les applications mobiles, mise à jour en 2024.
M1 Improper Credential Usage, M2 Inadequate Supply Chain Security, M3 Insecure Authentication, M4 Insufficient Input/Output Validation, M5 Insecure Communication, M6 Inadequate Privacy Controls, M7 Insufficient Binary Protections, M8 Security Misconfiguration, M9 Insecure Data Storage, M10 Insufficient Cryptography. Le guide couvre Android et iOS avec des exemples et des remédiations spécifiques à chaque plateforme. Voir aussi : OWASP, Mobile Security
222. SSL Pinning
Définition : Technique de sécurité mobile liant une application à un certificat ou une clé publique spécifique, empêchant les attaques MitM même avec un proxy HTTPS.
L'application vérifie que le certificat du serveur correspond au certificat « pinné » dans le code, rejetant les certificats de CA compromis ou les proxies d'interception. Implémentation : pin du certificat (fragile, rotation difficile) ou pin de la clé publique (SPKI, plus flexible). Les pentesters contournent le pinning avec Frida (objection), SSLUnpinning (Xposed), ou modification du smali/bytecode. Voir aussi : TLS, Frida, MitM
223. MDM (Mobile Device Management)
Définition : Solution de gestion centralisée des appareils mobiles (smartphones, tablettes) permettant le contrôle des politiques de sécurité, le déploiement d'applications et le wipe à distance.
Fonctionnalités : enrollment (inscription des devices), policy enforcement (chiffrement, PIN, screen lock), app management (MAM — déploiement et restriction d'apps), remote wipe (effacement en cas de perte/vol), compliance checking (jailbreak/root detection). Solutions : Microsoft Intune , Jamf (Apple), VMware Workspace ONE , MobileIron (Ivanti). Voir aussi : BYOD, MAM, EMM
224. Android Security Model
Définition : Architecture de sécurité Android : sandboxing (chaque app = user Linux séparé), permissions, SELinux, Verified Boot, Google Play Protect.
Couches : Application Sandbox (isolation par UID Linux), Permissions (runtime permissions depuis Android 6), SELinux (mandatory access control), Verified Boot (chaîne de vérification au boot), Google Play Protect (scanning ML des apps). Vulnérabilités : intent redirection , WebView vulnerabilities , content provider leaks , exported components . Outils : MobSF (analyse auto), Frida , objection . Voir aussi : iOS Security, Mobile Pentest
225. iOS Security Model
Définition : Architecture de sécurité Apple iOS : Secure Enclave, App Sandbox, code signing, entitlements, Pointer Authentication (PAC), PPL.
Couches : Secure Enclave (coprocesseur crypto isolé pour Touch/Face ID, Keychain), App Sandbox (isolation stricte), Code Signing (toutes les apps signées Apple ou developer), PAC (Pointer Authentication Code — empêche ROP/JOP sur ARM), PPL (Page Protection Layer). iOS est considéré plus sécurisé qu'Android grâce au contrôle hardware+software d'Apple et au review de l'App Store. Jailbreak = bypass de ces protections. Voir aussi : Android Security, Secure Enclave
27. Sécurité Industrielle OT/ICS
Sécurité des systèmes industriels, SCADA, automates et réseaux opérationnels.
226. OT Security (Operational Technology)
Définition : Sécurité des technologies opérationnelles : systèmes contrôlant les processus physiques dans l'industrie, l'énergie, le transport et les infrastructures critiques.
L'OT diffère de l'IT : priorité à la disponibilité (pas la confidentialité), cycles de vie de 15-30 ans, protocoles propriétaires, systèmes non patchables. La convergence IT/OT crée de nouveaux risques : les attaquants utilisent l'IT pour pivoter vers l'OT. Attaques célèbres : Stuxnet (2010, centrifugeuses iraniennes), TRITON (2017, systèmes de sécurité Schneider), Colonial Pipeline (2021, ransomware). Standards : IEC 62443, NIST SP 800-82. Voir aussi : ICS, SCADA, PLC
227. SCADA (Supervisory Control and Data Acquisition)
Définition : Système informatique de supervision et contrôle des processus industriels, collectant les données des capteurs et envoyant des commandes aux automates.
Architecture SCADA : RTU (Remote Terminal Unit) et PLC (automates) dans les sites distants, Communication network (Modbus, DNP3, IEC 61850), Master station (HMI, historien). Les vulnérabilités SCADA sont critiques : les attaquants peuvent modifier les paramètres physiques (température, pression, débit). La segmentation réseau (IT/OT) et le monitoring sont essentiels. Voir aussi : OT, PLC, Modbus
228. PLC (Programmable Logic Controller)
Définition : Automate programmable industriel exécutant la logique de contrôle des processus physiques (vannes, moteurs, capteurs) dans les environnements industriels.
Les PLC (Siemens, Allen-Bradley/Rockwell, Schneider) exécutent des programmes en Ladder Logic , Structured Text ou Function Block . Vulnérabilités : firmware non chiffré/non signé, protocoles sans authentification (Modbus, EtherNet/IP), accès maintenance par défaut, absence de logging. Stuxnet ciblait spécifiquement les PLC Siemens S7-300/400 contrôlant les centrifugeuses d'enrichissement d'uranium. Voir aussi : SCADA, Modbus, IEC 62443
229. Modbus Protocol
Définition : Protocole de communication série (Modbus RTU) et TCP (Modbus TCP) utilisé dans les systèmes industriels pour la communication entre automates et systèmes de supervision.
Modbus TCP opère sur le port 502 et n'a aucune authentification ni chiffrement . Tout hôte sur le réseau peut lire et écrire les registres de l'automate. Attaques : lecture de données de processus, modification de registres (altération des paramètres physiques), injection de commandes. Défense : segmentation réseau stricte, Modbus deep packet inspection (Suricata règles), firewall industriel. Voir aussi : SCADA, PLC, OT
230. IEC 62443
Définition : Standard international de cybersécurité pour les systèmes d'automatisation et de contrôle industriel (IACS), définissant des niveaux de sécurité (SL1-SL4).
IEC 62443 est organisé en 4 parties : général (concepts, terminologie), politiques et procédures (pour l'organisation), système (architecture de sécurité, zones et conduits), composant (exigences pour les PLC, SCADA). Les Security Levels (SL1 à SL4) définissent le niveau de protection contre des adversaires de sophistication croissante. IEC 62443 est le pendant industriel de l'ISO 27001 pour l'IT. Voir aussi : OT, SCADA, NIST SP 800-82
28. Wireless et IoT Security
Securite des communications sans fil, protocoles radio et Internet des Objets.
231. Wi-Fi Security (WPA3)
Definition : WPA3 est la derniere norme de securite Wi-Fi, remplacant WPA2 avec des protections renforcees contre le brute force et les attaques offline.
WPA3-Personal utilise SAE (Simultaneous Authentication of Equals) au lieu du 4-way handshake PSK, eliminant les attaques de dictionnaire offline. WPA3-Enterprise ajoute le mode 192-bit (CNSA suite). Vulnerabilites : Dragonblood (2019, side-channel et downgrade sur SAE), transition mode WPA3/WPA2. Voir aussi : WPA2, 802.11, Dragonblood
232. BLE (Bluetooth Low Energy) Security
Definition : Securite des communications BLE utilisees dans les IoT, wearables, serrures connectees et dispositifs medicaux.
Vulnerabilites : BLESA (BLE Spoofing Attack), KNOB (Key Negotiation of Bluetooth), BLURtooth (cross-transport key derivation), sniffing (Ubertooth, nRF52840). BLE 4.2+ supporte Secure Connections (ECDH P-256), mais de nombreux dispositifs utilisent encore le mode Legacy. Voir aussi : IoT, Zigbee, SDR
233. Zigbee Security
Definition : Securite du protocole Zigbee utilise dans la domotique et industriel, operant sur la bande 2.4 GHz avec IEEE 802.15.4.
Zigbee utilise AES-128 pour le chiffrement. Vulnerabilite principale : la Trust Center Link Key par defaut utilisee pendant le commissioning. Outils : KillerBee , Attify Zigbee , RZUSBstick . Zigbee 3.0 ameliore la securite avec Install Codes. Voir aussi : BLE, Z-Wave, IoT
234. LoRaWAN Security
Definition : Securite du protocole LoRaWAN pour les communications IoT longue portee et faible consommation.
LoRaWAN 1.1 utilise 2 cles : AppSKey (chiffrement applicatif end-to-end) et NwkSKey (integrite reseau). Vulnerabilites : replay attacks , ABP mode (cles statiques), eavesdropping du join procedure. LoRaWAN 1.1 ajoute des nonces aleatoires. Voir aussi : IoT, LPWAN, Sigfox
235. SDR (Software-Defined Radio)
Definition : Technologie permettant de recevoir et emettre des signaux radio via un logiciel, utilisee pour analyser et attaquer les protocoles radio.
Un dongle RTL-SDR permet de capturer des signaux de 24 MHz a 1.7 GHz. HackRF One permet aussi l emission. Applications : replay attack sur telecommandes, IMSI catching , ADS-B spoofing , GPS spoofing . Outils : GNU Radio , GQRX , Universal Radio Hacker . Voir aussi : Radio, IoT, IMSI Catcher
29. Risk Management et Frameworks
Gestion des risques, standards et referentiels de securite.
236. NIST Cybersecurity Framework (CSF)
Definition : Cadre de gestion des risques cybersecurite du NIST, organise en 6 fonctions : Govern, Identify, Protect, Detect, Respond, Recover.
NIST CSF 2.0 (2024) ajoute la fonction Govern aux 5 fonctions originales. Chaque fonction contient des categories et sous-categories mappees vers des controles specifiques (NIST SP 800-53, ISO 27001, CIS Controls). Voir aussi : ISO 27001, CIS Controls, MITRE ATT&CK
237. ISO 27001:2022
Definition : Standard international de management de la securite de l information, definissant les exigences pour un SMSI.
ISO 27001:2022 restructure l Annexe A en 4 themes (Organizational, People, Physical, Technological) avec 93 controles (vs 114 en 2013). 11 nouveaux controles incluent threat intelligence , cloud security , ICT readiness for business continuity . Voir aussi : SMSI, ISO 27002, Audit
238. MITRE ATT&CK
Definition : Base de connaissances decrivant les tactiques, techniques et procedures (TTPs) des adversaires cyber, organisee en matrices par plateforme.
14 tactiques : Reconnaissance, Resource Development, Initial Access, Execution, Persistence, Privilege Escalation, Defense Evasion, Credential Access, Discovery, Lateral Movement, Collection, C2, Exfiltration, Impact. Utilisations : threat modeling , detection engineering , gap analysis , purple team . Voir aussi : MITRE D3FEND, Kill Chain, TTPs
239. CIS Controls
Definition : Les 18 controles de securite critiques du Center for Internet Security, priorises par groupes (IG1, IG2, IG3).
IG1 (cyber hygiene) : inventaire materiel/logiciel, gestion des configurations, controle d acces, gestion des vulnerabilites, audit logs. IG2 : gestion des incidents, tests de penetration. IG3 : tests avances, red team. Les CIS Benchmarks fournissent des guides par technologie. Voir aussi : NIST CSF, ISO 27001
240. CVSS (Common Vulnerability Scoring System)
Definition : Systeme de notation evaluant la severite des vulnerabilites sur une echelle de 0 a 10.
CVSS v4.0 (2023) ajoute des metriques de menace et d environnement. Metriques de base : Attack Vector , Attack Complexity , Privileges Required , User Interaction , Scope , Impact . Scores : Critical (9.0-10.0), High (7.0-8.9), Medium (4.0-6.9), Low (0.1-3.9). Utiliser EPSS en complement. Voir aussi : CVE, NVD, EPSS
241. Threat Intelligence (CTI)
Definition : Renseignement sur les menaces cyber : collecte, analyse et partage d informations sur les adversaires et leurs TTPs.
Niveaux : strategique (tendances), tactique (TTPs, pour les analystes SOC), operationnel (campagnes en cours, pour l IR), technique (IoCs, pour les SIEM/EDR). Standards : STIX/TAXII , MISP . Voir aussi : MISP, STIX/TAXII, APT, IoC
242. EPSS (Exploit Prediction Scoring System)
Definition : Modele predictif estimant la probabilite qu une CVE soit exploitee dans les 30 prochains jours, complementaire au CVSS.
EPSS utilise le ML sur des donnees historiques. Score de 0 a 1. Seulement 2-5% des CVE ont un score EPSS superieur a 0.1. Un CVE avec CVSS 7.0 mais EPSS 0.97 est plus urgent qu un CVE avec CVSS 9.8 et EPSS 0.01. Voir aussi : CVSS, CVE, Vulnerability Management
243. GRC (Governance, Risk, Compliance)
Definition : Approche integree combinant la gouvernance, la gestion des risques et la conformite reglementaire.
Composants : Governance (politiques, comites, roles RSSI/DPO), Risk Management (EBIOS RM, ISO 27005), Compliance (RGPD, NIS2, DORA, PCI DSS). Outils GRC : ServiceNow GRC , OneTrust , RSA Archer , Eramba . Voir aussi : RSSI, ISO 27001, EBIOS RM
244. EBIOS Risk Manager
Definition : Methode francaise d analyse de risques editee par l ANSSI, structuree en 5 ateliers progressifs.
5 ateliers : Atelier 1 (Cadrage), Atelier 2 (Sources de risques), Atelier 3 (Scenarios strategiques), Atelier 4 (Scenarios operationnels, MITRE ATT&CK mapping), Atelier 5 (Traitement des risques). Reference pour les OIV et administrations francaises. Voir aussi : ISO 27005, ANSSI, OIV, NIS2
245. NIS2 (Network and Information Security)
Definition : Directive europeenne (2022/2555) renforcant les obligations de cybersecurite pour les entites essentielles et importantes dans l UE.
NIS2 etend le perimetre : de 7 a 18 secteurs, 160 000+ entites. Obligations : gestion des risques, notification d incidents (24h alerte, 72h rapport), securite supply chain, tests de penetration, formation des dirigeants. Sanctions : jusqu a 10M euros ou 2% du CA mondial. Voir aussi : DORA, ANSSI, OIV
30. Threat Actors et APT
Acteurs de la menace, groupes APT etatiques et cybercriminalite organisee.
246. APT (Advanced Persistent Threat)
Definition : Groupe d attaquants sophistique, generalement etatique, menant des campagnes d intrusion ciblees et durables.
Caracteristiques : persistence, sophistication (0-day, malware custom), objectifs strategiques. Groupes notables : APT28/Fancy Bear (Russie/GRU), APT29/Cozy Bear (Russie/SVR), APT41 (Chine), Lazarus (Coree du Nord), Charming Kitten (Iran). Voir aussi : TTPs, MITRE ATT&CK, CTI
247. Cyber Kill Chain
Definition : Modele de Lockheed Martin decrivant les 7 phases d une cyberattaque.
7 phases : Reconnaissance , Weaponization , Delivery , Exploitation , Installation , C2 , Actions on Objectives . La defense consiste a briser la chaine le plus tot possible. MITRE ATT&CK offre une vue plus realiste et iterative. Voir aussi : MITRE ATT&CK, TTPs
248. Ransomware-as-a-Service (RaaS)
Definition : Modele economique cybercriminel ou les developpeurs de ransomware fournissent leur malware a des affilies en echange d un pourcentage.
L operateur fournit : le malware, le portail de negociation, l infrastructure crypto, le leak site. L affilie fournit : l acces initial, le deploiement. Modele : 70-80% affilie, 20-30% operateur. Groupes : LockBit , BlackCat/ALPHV , RansomHub , Akira . Voir aussi : Ransomware, IAB, Double Extortion
249. Initial Access Broker (IAB)
Definition : Acteur cybercriminel specialise dans l obtention et la revente d acces initiaux a d autres groupes criminels.
Les IABs vendent sur les forums dark web : acces VPN/RDP, credentials Microsoft 365, web shells. Sources : phishing, exploitation de vulnerabilites, infostealers (RedLine, Raccoon). Monitoring : Flashpoint , KELA , Hudson Rock . Voir aussi : RaaS, Dark Web, Infostealer
250. Double/Triple Extortion
Definition : Technique de ransomware combinant chiffrement, exfiltration avec menace de publication, et parfois DDoS.
Simple : chiffrement. Double : chiffrement + exfiltration avec leak site. Triple : + DDoS ou contact des clients/regulateurs. L exfiltration rend les sauvegardes insuffisantes comme unique defense. Voir aussi : Ransomware, RaaS
31. Privacy et Data Protection
Protection des donnees personnelles, reglementations et techniques de preservation de la vie privee.
251. RGPD / GDPR
Definition : Reglement General sur la Protection des Donnees (UE 2016/679), cadre europeen regissant la collecte et le traitement des donnees personnelles.
Principes : liceite, limitation des finalites, minimisation, exactitude, limitation de conservation, integrite et confidentialite, accountability. Droits : acces, rectification, effacement, portabilite, opposition. Sanctions : jusqu a 20M euros ou 4% du CA mondial. Voir aussi : CNIL, DPO, DPIA
252. Privacy by Design
Definition : Approche integrant la protection de la vie privee des la conception des systemes.
7 principes (Ann Cavoukian) : proactif, par defaut, integre, win-win, bout en bout, transparence, respect de l utilisateur. En pratique : chiffrement par defaut, minimisation des donnees, pseudonymisation, controles d acces granulaires. Voir aussi : RGPD, Privacy by Default, DPIA
253. Differential Privacy
Definition : Technique mathematique ajoutant du bruit calibre aux donnees pour garantir qu aucun individu ne peut etre identifie.
Le parametre epsilon controle le compromis privacy/utilite. Applications : Apple (donnees d usage), Google (RAPPOR), US Census Bureau (recensement 2020), federated learning (DP-SGD). Voir aussi : Anonymisation, Federated Learning
254. Homomorphic Encryption
Definition : Chiffrement permettant d effectuer des calculs sur des donnees chiffrees sans les dechiffrer.
Types : Partial HE (une operation), Somewhat HE (limite), Fully HE (FHE, environ 10 000x plus lent). Librairies : Microsoft SEAL , TFHE , OpenFHE , Concrete (Zama). Applications : ML sur donnees medicales chiffrees, agregation bancaire. Voir aussi : Chiffrement, FHE, Privacy
255. PET (Privacy-Enhancing Technologies)
Definition : Ensemble de technologies renforcant la protection de la vie privee : differential privacy, homomorphic encryption, MPC, federated learning, TEE.
Differential Privacy : bruit statistique. Homomorphic Encryption : calcul sur chiffre. Secure MPC : calcul conjoint sans reveler les donnees. Federated Learning : ML distribue. TEE : enclave materielle (SGX, TDX). Zero-Knowledge Proofs : prouver sans reveler. Voir aussi : Privacy, RGPD, Confidential Computing
32. Supply Chain Security
Securite de la chaine d approvisionnement logicielle et materielle.
256. SBOM (Software Bill of Materials)
Definition : Inventaire structure de tous les composants, bibliotheques et dependances constituant un logiciel.
Formats : SPDX (Linux Foundation, ISO 5962), CycloneDX (OWASP). Outils : Syft , Trivy , cdxgen . Obligatoire pour les fournisseurs du gouvernement US (EO 14028). Utilisation : vulnerability management, license compliance, incident response. Voir aussi : SCA, SPDX, CycloneDX
257. SCA (Software Composition Analysis)
Definition : Analyse automatisee des composants open source pour identifier les vulnerabilites et les licences problematiques.
Outils : Snyk , Dependabot (GitHub), Renovate , OWASP Dependency-Check , Trivy , Grype . Integration : CI/CD, IDE, registry scanning. Detecte les CVE dans les dependances directes et transitives. Voir aussi : SBOM, DevSecOps, CVE
258. Dependency Confusion
Definition : Attaque de supply chain exploitant la resolution de paquets des gestionnaires de dependances pour injecter des paquets malveillants.
L attaquant publie un paquet malveillant avec le meme nom qu un paquet interne sur le registre public. Decouverte par Alex Birsan (2021), a compromis Apple, Microsoft, PayPal. Prevention : scoped packages , registre prive , dependency pinning . Voir aussi : Supply Chain, npm, pip
259. Typosquatting (Packages)
Definition : Attaque publiant des paquets malveillants avec des noms proches de paquets populaires sur les registres publics.
Exemples : colourama vs colorama, python-dateutils vs python-dateutil. Les paquets executent du code malveillant lors de l installation. Defense : verification manuelle, lockfiles, SCA. Socket.dev et Phylum detectent proactivement. Voir aussi : Dependency Confusion, SCA
260. SLSA (Supply-chain Levels for Software Artifacts)
Definition : Framework de Google definissant 4 niveaux de securite pour la supply chain logicielle.
SLSA 1 : provenance documentee. SLSA 2 : build service heberge, provenance signee. SLSA 3 : build isole, provenance non falsifiable. SLSA 4 : two-person review, build reproductible. Implementation : Sigstore , in-toto , GitHub Artifact Attestations . Voir aussi : Sigstore, SBOM, Build Security
33. Container et Kubernetes Security
Securite des conteneurs, orchestrateurs et microservices.
261. Container Security
Definition : Securite des conteneurs Docker et OCI : images, runtime, reseau, orchestration.
Risques : images vulnerables (base images non patchees), privilege escalation (container escape), secrets en clair, reseau non segmente. Best practices : scan d images (Trivy, Snyk Container), runtime security (Falco, Sysdig), least privilege (non-root, read-only filesystem, seccomp/AppArmor), image signing (Cosign/Notary). Voir aussi : Docker, Kubernetes, OCI
262. Kubernetes Security
Definition : Securite de l orchestrateur Kubernetes : API server, RBAC, network policies, pod security, supply chain.
Vecteurs d attaque : API server expose , RBAC misconfiguration (ClusterAdmin trop permissif), pod escape (privileged containers, hostPath mounts), secrets non chiffres (etcd en clair). Outils : kube-bench (CIS Benchmarks), kube-hunter (pentest), OPA/Gatekeeper (policies), Falco (runtime). NSA/CISA Kubernetes Hardening Guide est la reference. Voir aussi : Container Security, RBAC, Pod Security
263. Service Mesh Security
Definition : Securite des service meshes (Istio, Linkerd, Consul Connect) : mTLS automatique, authorization policies, observabilite.
Le service mesh ajoute un sidecar proxy (Envoy) a chaque pod, gerant le trafic reseau. Securite : mTLS automatique (chiffrement pod-to-pod), authorization policies (qui peut appeler quel service), rate limiting , circuit breaking . Istio est le plus adopte. Le modele zero-trust est naturellement implemente par le service mesh. Voir aussi : Istio, Envoy, mTLS, Zero Trust
264. Image Scanning
Definition : Analyse des images de conteneurs pour detecter les vulnerabilites connues (CVE), les malwares, les secrets et les mauvaises configurations.
Outils : Trivy (Aqua, open source, le plus populaire), Grype (Anchore), Snyk Container , Clair (Quay). Integration : CI/CD (scan avant push), registry (scan a l arrivee), admission controller (bloquer les images non scannees). Best practice : base image minimale (distroless, Alpine), mise a jour reguliere, signature d images. Voir aussi : Container Security, SBOM, CVE
265. Pod Security Standards
Definition : Standards Kubernetes definissant 3 niveaux de securite pour les pods : Privileged, Baseline, Restricted.
Privileged : aucune restriction (pour les composants systeme). Baseline : empeche les escalades de privileges connues (pas de hostNetwork, pas de privileged containers). Restricted : securite maximale (non-root, drop ALL capabilities, read-only root filesystem). Remplace les PodSecurityPolicies (depreciees en 1.25). Enforcement via Pod Security Admission controller natif. Voir aussi : Kubernetes, RBAC, Container Security
34. Incident Response
Reponse aux incidents de securite, forensics et gestion de crise cyber.
266. NIST Incident Response Lifecycle
Definition : Cadre de reponse aux incidents du NIST SP 800-61, structure en 4 phases : Preparation, Detection & Analysis, Containment/Eradication/Recovery, Post-Incident.
Preparation : equipe, outils, playbooks. Detection & Analysis : triage des alertes, analyse des IoCs, determination du scope. Containment : isoler les systemes compromis. Eradication : supprimer la menace. Recovery : restaurer les systemes. Post-Incident : lessons learned, amelioration des controles. Voir aussi : CSIRT, SOAR, Playbook
267. Digital Forensics
Definition : Science de la collecte, preservation et analyse des preuves numeriques pour l investigation d incidents de securite ou de cybercrimes.
Disciplines : disk forensics (analyse de disques, recovery), memory forensics (analyse de RAM avec Volatility), network forensics (capture et analyse de trafic), mobile forensics , cloud forensics . Principes : chaine de custody, integrite des preuves (hashing), documentation exhaustive. Outils : Autopsy/Sleuth Kit , FTK , EnCase , KAPE . Voir aussi : Memory Forensics, Volatility, DFIR
268. Memory Forensics
Definition : Analyse de la memoire vive (RAM) pour detecter les malwares en memoire, les processus caches, les connexions reseau et les credentials.
La memoire RAM contient des informations non disponibles sur disque : processus en cours, DLLs injectees, connexions reseau, cles de chiffrement, historique de commandes. Outil principal : Volatility 3 . Plugins essentiels : pslist/pstree (processus), netscan (connexions), malfind (injection de code), dlllist, hashdump (credentials). Acquisition : WinPmem , AVML (Linux), LiME . Voir aussi : Volatility, DFIR, Malware Analysis
269. SOAR (Security Orchestration, Automation and Response)
Definition : Plateforme automatisant les processus de reponse aux incidents via des playbooks, l orchestration d outils de securite et le case management.
SOAR integre : orchestration (connecter SIEM, EDR, TI, firewall, ticketing via APIs), automation (playbooks automatises pour le triage, l enrichissement, le containment), response (actions automatiques ou semi-automatiques). Solutions : Splunk SOAR (ex-Phantom), Palo Alto XSOAR , IBM QRadar SOAR , TheHive (open source). KPI : MTTR, taux d automatisation. Voir aussi : SIEM, Playbook, IR
270. IoC (Indicator of Compromise)
Definition : Artefact observable indiquant qu un systeme a ete compromis : adresse IP, hash de fichier, domaine, URL, pattern de registre.
Types : atomiques (IP, hash, domaine — faciles a changer par l attaquant), computed (patterns Yara, signatures IDS), comportementaux (TTPs — les plus durables selon la Pyramid of Pain de David Bianco). Partage : STIX/TAXII , MISP , OpenIOC . Integration : SIEM, EDR, firewall, proxy. Les IoCs atomiques ont une duree de vie courte et doivent etre enrichis avec du contexte CTI. Voir aussi : CTI, MISP, STIX, Pyramid of Pain
35. Technologies Emergentes
Technologies emergentes et leur impact sur la cybersecurite.
271. Post-Quantum Cryptography (PQC)
Definition : Algorithmes cryptographiques resistants aux attaques par ordinateurs quantiques, standardises par le NIST en 2024.
L ordinateur quantique menace RSA, ECC et DH via l algorithme de Shor. Le NIST a standardise : ML-KEM (Kyber, key encapsulation), ML-DSA (Dilithium, signatures), SLH-DSA (Sphincs+, signatures hash-based). Migration : inventaire des usages crypto (crypto agility), migration hybride (classique + PQC), mise a jour des protocoles (TLS 1.3 avec ML-KEM). Timeline : migration recommandee avant 2030 (risque harvest now, decrypt later). Voir aussi : Quantique, NIST, Crypto Agility
272. Confidential Computing
Definition : Technologie protegeant les donnees pendant le traitement (data-in-use) via des environnements d execution securises (TEE) au niveau materiel.
Les TEE (Trusted Execution Environments) isolent le code et les donnees dans des enclaves : Intel SGX/TDX , AMD SEV-SNP , ARM CCA . Les donnees sont chiffrees en memoire, inaccessibles meme pour l hyperviseur ou l OS. Applications : ML sur donnees sensibles multi-parties, processing bancaire dans le cloud, analytics medicales. Le Confidential Computing Consortium (Linux Foundation) standardise les approches. Voir aussi : TEE, SGX, Intel TDX, AMD SEV
273. Zero Trust Architecture (ZTA)
Definition : Modele de securite ou aucune entite (utilisateur, device, reseau) n est implicitement approuvee, chaque acces etant verifie en continu.
Principes (NIST SP 800-207) : never trust, always verify , least privilege , assume breach . Composants : identity-centric (IAM, MFA, SSO), micro-segmentation (network policies), device trust (posture assessment), continuous monitoring . Implementations : Google BeyondCorp , Microsoft Entra , Zscaler ZPA . Le zero trust n est pas un produit mais une strategie architecture. Voir aussi : IAM, Micro-segmentation, SASE
274. SASE (Secure Access Service Edge)
Definition : Architecture cloud convergant les fonctions reseau (SD-WAN) et securite (SWG, CASB, ZTNA, FWaaS) en un service cloud unifie.
SASE (prononce 'sassy', terme Gartner 2019) combine : SD-WAN (optimisation reseau), SWG (Secure Web Gateway), CASB (Cloud Access Security Broker), ZTNA (Zero Trust Network Access), FWaaS (Firewall-as-a-Service). Acteurs : Zscaler , Palo Alto Prisma Access , Netskope , Cloudflare One . SSE (Security Service Edge) est le volet securite seul (sans SD-WAN). Voir aussi : Zero Trust, SD-WAN, CASB, ZTNA
275. Digital Twin Security
Definition : Securite des jumeaux numeriques : repliques virtuelles de systemes physiques (usines, infrastructures, villes) utilisees pour la simulation et l optimisation.
Les digital twins dans l industrie (Industry 4.0) creent de nouvelles surfaces d attaque : manipulation des modeles (fausser les simulations), exfiltration de donnees (schemas industriels, parametres de processus), attaque du lien jumeau-physique (injecter de fausses donnees pour provoquer des decisions dangereuses). Defense : chiffrement des communications, integrite des modeles, segmentation OT/IT/digital twin. Voir aussi : OT, ICS, Industry 4.0
36. Authentication et Identity
Authentification, gestion des identites et controle d acces.
276. Passkeys (FIDO2/WebAuthn)
Definition : Methode d authentification sans mot de passe utilisant la cryptographie asymetrique (cle privee sur le device, cle publique sur le serveur).
Passkeys eliminent les mots de passe et sont resistants au phishing (la cle est liee au domaine). Basees sur FIDO2/WebAuthn (W3C + FIDO Alliance). La cle privee est stockee dans le Secure Enclave (Apple), TPM (Windows), ou le Titan chip (Google). Synchronisation cross-device via iCloud Keychain, Google Password Manager, ou 1Password. Adoptes par Apple, Google, Microsoft, GitHub, Amazon. Voir aussi : FIDO2, WebAuthn, MFA
277. OAuth 2.0 / OIDC
Definition : Protocoles d autorisation (OAuth 2.0) et d authentification (OpenID Connect) standard pour le web et les APIs.
OAuth 2.0 : framework d autorisation (deleguer l acces a des ressources). Grant types : Authorization Code (+ PKCE pour les apps publiques), Client Credentials (M2M), Device Code. OIDC : couche d identite sur OAuth 2.0 (ID Token JWT). Vulnerabilites : open redirect , CSRF (state parameter manquant), token leakage , SSRF via redirect_uri . Best practice : PKCE obligatoire, token binding, short-lived tokens. Voir aussi : JWT, SAML, IAM
278. PAM (Privileged Access Management)
Definition : Solution de gestion des acces privilegies : coffre-fort de mots de passe, session recording, just-in-time access, rotation automatique.
PAM protege les comptes a haut privilege (admin, root, service accounts). Fonctionnalites : vault (stockage securise des credentials), session management (enregistrement video des sessions admin), JIT access (acces temporaire eleve), credential rotation (rotation automatique des mots de passe). Solutions : CyberArk , BeyondTrust , Delinea , HashiCorp Vault (secrets management). Voir aussi : IAM, Zero Trust, Vault
279. SCIM (System for Cross-domain Identity Management)
Definition : Protocole standard de provisioning et deprovisioning automatique des identites entre un IdP et les applications SaaS.
SCIM 2.0 utilise une API REST pour synchroniser les utilisateurs et groupes. Operations : Create (nouvel employe), Update (changement de role), Delete/Deactivate (depart). Avantage : provisioning instantane (vs synchronisation batch). Supporte par : Okta, Azure AD, Google Workspace, et la plupart des SaaS modernes. Sans SCIM, les comptes orphelins sont un risque majeur de securite. Voir aussi : IAM, IdP, Provisioning
280. ITDR (Identity Threat Detection and Response)
Definition : Categorie de securite focalisee sur la detection et la reponse aux menaces ciblant les identites : credential theft, privilege escalation, lateral movement.
ITDR detecte : impossible travel (connexions geographiquement impossibles), credential stuffing , privilege escalation anormale , lateral movement via identites , MFA fatigue attacks . Solutions : Microsoft Entra ID Protection , CrowdStrike Identity Threat Protection , Silverfort , Semperis (Active Directory). ITDR est le complement XDR pour la couche identite. Voir aussi : IAM, XDR, Active Directory
37. Offensive Security
Techniques offensives, pentest, red team et exploitation.
281. OSINT (Open Source Intelligence)
Definition : Collecte et analyse d informations provenant de sources publiques pour la reconnaissance, le renseignement ou l investigation.
Sources : moteurs de recherche (Google dorking), reseaux sociaux (LinkedIn, Twitter), DNS/WHOIS , Shodan/Censys (services exposes), code source (GitHub), dark web . Outils : Maltego , SpiderFoot , theHarvester , Recon-ng . L OSINT est la premiere phase de tout pentest et de toute investigation. La surface d exposition OSINT d une organisation est souvent sous-estimee. Voir aussi : Reconnaissance, Google Dorking, Shodan
282. C2 Framework (Command and Control)
Definition : Infrastructure utilisee par les attaquants (et les red teamers) pour controler les implants deployes sur les systemes compromis.
Frameworks C2 modernes : Cobalt Strike (commercial, le plus utilise par les APTs et red teams), Mythic (open source, modulaire), Sliver (BishopFox, open source), Havoc . Fonctionnalites : communication chiffree (HTTPS, DNS, SMB), evasion des EDR, post-exploitation (mimikatz, lateral movement), malleable profiles. Les defenseurs surveillent les C2 via JA3/JA4 fingerprinting, domain fronting detection, beacon pattern analysis. Voir aussi : Red Team, Post-Exploitation, Implant
283. Privilege Escalation
Definition : Technique permettant a un attaquant d obtenir des privileges superieurs a ceux initialement obtenus sur un systeme compromis.
Vertical (user vers root/admin) : exploitation de vulnerabilites kernel, SUID/SGID misconfiguration (Linux), service misconfiguration (Windows), token manipulation. Horizontal (acces a un autre compte de meme niveau). Outils : LinPEAS/WinPEAS (enumeration automatique), GTFOBins (binaires exploitables), PowerUp (Windows). La privilege escalation est une etape critique de la kill chain apres l acces initial. Voir aussi : Kernel Exploit, SUID, Post-Exploitation
284. Lateral Movement
Definition : Techniques utilisees par un attaquant pour se deplacer d un systeme compromis vers d autres systemes du reseau cible.
Techniques Windows : PsExec , WMI , WinRM , DCOM , RDP , Pass-the-Hash , Pass-the-Ticket (Kerberos). Techniques Linux : SSH (cles volees), Ansible/Salt (abus d outils legit). Detection : logs d authentification (Event ID 4624/4625), network traffic analysis , EDR (process creation, remote execution). Le lateral movement est l etape ou les defenseurs ont le plus de chances de detecter l attaquant. Voir aussi : Pass-the-Hash, Kerberos, Post-Exploitation
285. EDR Bypass / Evasion
Definition : Techniques pour contourner les solutions Endpoint Detection and Response lors d operations offensives.
Techniques : AMSI bypass (Anti-Malware Scan Interface patching), ETW tampering (desactiver le telemetry), unhooking (restaurer les DLLs hookees par l EDR), direct syscalls (eviter les hooks userland), process injection (injection dans des processus signes), LOLBins (Living off the Land Binaries). Outils : ScareCrow , Nimcrypt , SharpCollection . La course aux armements EDR bypass / detection est constante. Voir aussi : EDR, ETW, AMSI, Red Team
38. Network Security Avancee
Securite reseau avancee, detection et protection.
286. NDR (Network Detection and Response)
Definition : Solution de securite analysant le trafic reseau en temps reel pour detecter les menaces avancees, le lateral movement et les exfiltrations.
NDR utilise le ML et l analyse comportementale pour detecter les anomalies dans le trafic reseau (vs les signatures IDS). Capacites : detection de lateral movement , C2 communication , data exfiltration , encrypted traffic analysis (JA3/JA4, metadata). Solutions : Darktrace , Vectra AI , ExtraHop , Corelight (Zeek-based). NDR + EDR + SIEM = la triade de detection moderne. XDR integre ces trois composants. Voir aussi : XDR, IDS/IPS, Zeek
287. DPI (Deep Packet Inspection)
Definition : Technique d analyse du contenu complet des paquets reseau (pas seulement les headers) pour la detection de menaces, le filtrage et le controle applicatif.
DPI examine la couche 7 (application layer) pour identifier les protocoles, detecter les malwares, filtrer le contenu et appliquer des politiques de securite. Technologies : signature matching , protocol decoding , heuristic analysis . Limitations : le chiffrement TLS rend le DPI inefficace sans TLS interception (MITM proxy). Suricata et Snort effectuent du DPI pour l IDS/IPS. Voir aussi : IDS/IPS, WAF, Firewall
288. DNS Security
Definition : Securite du protocole DNS : DNSSEC, DoH, DoT, DNS filtering, detection des tunnels DNS.
Attaques : DNS spoofing/cache poisoning , DNS tunneling (exfiltration via requetes DNS), DNS rebinding , domain hijacking . Protections : DNSSEC (authenticite des reponses), DoH/DoT (chiffrement des requetes), DNS filtering (Cisco Umbrella, Cloudflare Gateway), RPZ (Response Policy Zone). Le DNS est utilise par 90% des malwares pour la communication C2. Voir aussi : DoH, DoT, DNSSEC, DNS Tunneling
289. TLS 1.3
Definition : Derniere version du protocole Transport Layer Security, simplifiant le handshake et ameliorant les performances et la securite.
TLS 1.3 reduit le handshake a 1 RTT (vs 2 RTT en TLS 1.2) et supporte 0-RTT (resumption). Supprime les algorithmes obsoletes : RSA key exchange, CBC ciphers, SHA-1, RC4, DES, 3DES. Seuls les cipher suites AEAD sont autorises : AES-128-GCM , AES-256-GCM , ChaCha20-Poly1305 . Key exchange : ECDHE ou DHE uniquement (forward secrecy obligatoire). Le Encrypted Client Hello (ECH) est en cours de standardisation pour proteger le SNI. Voir aussi : HTTPS, Certificate, PKI
290. Micro-segmentation
Definition : Strategie de securite reseau divisant le reseau en segments granulaires (jusqu au niveau workload) avec des politiques de securite specifiques a chaque segment.
Contrairement a la segmentation traditionnelle (VLANs, firewalls), la micro-segmentation opere au niveau des workloads (VMs, containers, processus). Chaque communication est controlee par des politiques. Implementations : VMware NSX , Illumio , Guardicore (Akamai), Kubernetes Network Policies (Calico, Cilium). La micro-segmentation est un pilier du Zero Trust : meme a l interieur du reseau, chaque flux est authentifie et autorise. Voir aussi : Zero Trust, Network Policy, SDN
39. Automation et Scripting
Automatisation de la securite, scripting et Infrastructure as Code.
291. IaC Security (Infrastructure as Code)
Definition : Securite de l Infrastructure as Code : scan des templates Terraform, CloudFormation, Bicep pour detecter les misconfigurations avant le deploiement.
Outils : Checkov (Prisma Cloud, 1000+ regles), tfsec (Aqua, Terraform), KICS (Checkmarx), Terrascan . Risques detectes : S3 buckets publics, security groups trop permissifs, chiffrement desactive, logging manquant. Integration : pre-commit hooks , CI/CD pipeline , IDE . Le shift-left de la securite cloud commence par l IaC scanning. Voir aussi : Terraform, CloudFormation, DevSecOps
292. YARA Rules
Definition : Langage de regles pour identifier et classifier les malwares, utilise en forensics, threat hunting et detection.
YARA identifie les fichiers par patterns de strings (texte, hex, regex) et conditions logiques. Exemple : detecter un malware par une chaine de caracteres unique + une taille de fichier + un header PE specifique. Utilise par les antivirus, les EDR et les sandboxes. Outils : yarGen (generation automatique), YARA-CI , integration avec VirusTotal, MISP. Les regles YARA sont le langage universel de la detection de malware. Voir aussi : Malware Analysis, Threat Hunting, IOC
293. Sigma Rules
Definition : Standard de regles de detection generiques pour les SIEM, independant du format de logs et de la plateforme SIEM.
Sigma est au SIEM ce que Snort est a l IDS et YARA au malware : un format universel. Une regle Sigma est ecrite en YAML et decrit un pattern de detection (processus, logs, evenements). Des compilateurs convertissent les regles en : Splunk SPL , Elasticsearch KQL , Microsoft Sentinel KQL , QRadar AQL . Le projet SigmaHQ maintient 3000+ regles community. Sigma est essentiel pour le detection engineering et le partage de detections. Voir aussi : SIEM, Detection Engineering, MITRE
294. Nuclei (Scanner)
Definition : Scanner de vulnerabilites rapide et extensible base sur des templates YAML, permettant de scanner des milliers de cibles pour des CVEs et misconfigurations.
Nuclei (ProjectDiscovery) utilise des templates YAML decrivant la requete HTTP et la condition de detection. 8000+ templates communautaires couvrant : CVEs, misconfigurations, exposed panels, default credentials, technologies. Avantages : tres rapide (Go, parallelisation), extensible (ecrire ses propres templates), communaute active. Concurrent de Nessus/OpenVAS pour le scan web, complementaire pour le bug bounty. Voir aussi : Vulnerability Scanning, CVE, Bug Bounty
295. Ansible for Security
Definition : Utilisation d Ansible pour l automatisation de la securite : hardening, compliance checks, incident response, patch management.
Ansible Playbooks pour la securite : hardening (CIS Benchmarks automation), patch management (deploiement de patches), incident response (isolation d hote, collecte de preuves), compliance audit (verification des configurations). Collections : ansible.posix , community.general , roles Galaxy pour CIS/STIG. Ansible est agentless (SSH/WinRM), ce qui le rend ideal pour les environnements ou on ne peut pas deployer d agent. Voir aussi : IaC, DevSecOps, Automation
40. Compliance et Audit
Conformite reglementaire, standards et audit de securite.
296. PCI DSS 4.0
Definition : Payment Card Industry Data Security Standard v4.0, norme de securite pour les organisations traitant des donnees de cartes bancaires.
PCI DSS 4.0 (mars 2024, obligatoire) introduit : customized approach (alternative aux controles prescriptifs), targeted risk analysis , MFA pour tous les acces au CDE , web application firewall obligatoire , script integrity (SRI pour les scripts tiers). 12 categories de controles : reseau, acces, chiffrement, logging, tests, politique. Niveaux 1-4 selon le volume de transactions. Voir aussi : Conformite, Chiffrement, WAF
297. SOC 2 Type II
Definition : Rapport d audit evaluant les controles de securite d un prestataire de services sur une periode (6-12 mois), base sur les Trust Services Criteria de l AICPA.
SOC 2 evalue 5 criteres : Security (obligatoire), Availability , Processing Integrity , Confidentiality , Privacy . Type I : design des controles a un instant T. Type II : efficacite des controles sur une periode. De plus en plus exige par les clients (surtout SaaS B2B). L audit est realise par un CPA (expert-comptable certifie). Alternative europeenne : ISAE 3402 . Voir aussi : Audit, Compliance, SaaS
298. DORA (Digital Operational Resilience Act)
Definition : Reglement europeen (2022/2554) imposant des exigences de resilience operationnelle numerique aux entites financieres (banques, assurances, fintechs).
DORA (applicable janvier 2025) impose : gestion des risques ICT , notification d incidents , tests de resilience (TLPT pour les entites significatives), gestion des risques tiers (prestataires ICT critiques), partage d informations . Les prestataires cloud critiques sont directement supervises par les autorites europeennes. DORA s ajoute a NIS2 pour le secteur financier. Voir aussi : NIS2, Conformite, Resilience
299. Pentest Report
Definition : Document structurant les resultats d un test d intrusion : scope, methodologie, vulnerabilites trouvees, preuves, recommandations et plan de remediation.
Structure : Executive Summary (pour le management), Scope et Methodologie (OWASP, PTES, OSSTMM), Findings (vulnerabilites classees par severite CVSS avec preuves/PoC), Recommendations (remediation prioritisee), Annexes (screenshots, logs). Best practices : reproduire les etapes, fournir des PoC sans etre destructif, proposer des remediation concretes, distinguer quick wins et projets long terme. Voir aussi : Pentest, Vulnerability, CVSS
300. Bug Bounty
Definition : Programme recompensant les chercheurs en securite (hackers ethiques) qui decouvrent et signalent des vulnerabilites dans les systemes d une organisation.
Plateformes : HackerOne , Bugcrowd , Intigriti (europeen), YesWeHack (francais). Recompenses : de 100 euros (low severity) a 250k+ dollars (critical RCE sur des cibles majeures). Avantages : tests continus par une communaute diverse, paiement au resultat. Prerequis : avoir deja un programme de securite mature, un processus de triage, et des equipes pour remedier rapidement. Voir aussi : Responsible Disclosure, VDP, Pentest
41. Data Engineering et Securite
Securite des pipelines de donnees, data lakes et architectures analytiques.
301. Data Lake Security
Definition : Securite des data lakes : controle d acces, chiffrement, gouvernance des donnees et prevention des fuites dans les architectures analytiques.
Les data lakes (S3, ADLS, GCS) concentrent des volumes massifs de donnees souvent sensibles. Risques : acces trop large (IAM policies permissives), donnees non classifiees , pas de chiffrement , lineage inconnu . Protections : classification automatique (DSPM), chiffrement at-rest et in-transit, fine-grained access (Lake Formation, Unity Catalog), audit des acces, retention policies. Voir aussi : DSPM, Cloud Security, Data Governance
302. Data Mesh Security
Definition : Securite dans une architecture Data Mesh ou la propriete des donnees est decentralisee par domaines metier.
En Data Mesh, chaque domaine est responsable de ses donnees (data products). Enjeux securite : federated governance (policies globales, implementation locale), access control (chaque data product a ses propres controles d acces), data contracts (SLA incluant des exigences securite), observabilite (monitoring de la qualite et de la securite des data products). Voir aussi : Data Lake, Data Governance, Architecture
303. Synthetic Data
Definition : Donnees generees artificiellement reproduisant les proprietes statistiques des donnees reelles sans contenir d informations personnelles identifiables.
Applications en securite : test et dev (remplacer les donnees de production), training ML (augmenter les datasets sans risque RGPD), partage de donnees (partager avec des tiers sans risque privacy). Outils : Gretel , Mostly AI , Faker (simpliste), SDV (Synthetic Data Vault). Limitation : les donnees synthetiques doivent etre validees pour s assurer qu elles ne permettent pas la re-identification. Voir aussi : Privacy, RGPD, Data Anonymisation
42. DevSecOps Avance
Securite avancee dans les pipelines CI/CD et le developpement logiciel.
304. SAST (Static Application Security Testing)
Definition : Analyse statique du code source pour detecter les vulnerabilites de securite sans executer l application.
Outils : SonarQube , Semgrep (rapide, regles custom), CodeQL (GitHub, analyse semantique), Checkmarx , Fortify . Detecte : injections SQL/XSS, buffer overflows, hardcoded secrets, crypto faible. Integration : IDE (feedback immediat), pre-commit, CI/CD. Limitation : faux positifs eleves, ne detecte pas les vulnerabilites runtime. Voir aussi : DAST, SCA, DevSecOps
305. DAST (Dynamic Application Security Testing)
Definition : Test de securite dynamique analysant une application en cours d execution pour detecter les vulnerabilites exploitables.
Outils : OWASP ZAP (open source), Burp Suite (PortSwigger), Nuclei , Acunetix . Teste : injections, XSS, CSRF, authentication bypass, misconfigurations. Avantage : teste l application reelle (pas le code), detecte les vulnerabilites de configuration. Limitation : couverture incomplete, ne teste que ce qui est accessible. DAST + SAST = couverture complementaire. Voir aussi : SAST, Pentest, OWASP ZAP
306. Secrets Management
Definition : Gestion securisee des secrets (API keys, mots de passe, certificats, tokens) dans les applications et les pipelines CI/CD.
Outils : HashiCorp Vault (le standard), AWS Secrets Manager , Azure Key Vault , GCP Secret Manager , Infisical (open source). Anti-patterns : secrets en dur dans le code, fichiers .env commites, variables d environnement non protegees. Detection : TruffleHog , GitLeaks , GitHub Secret Scanning . Best practice : rotation automatique, least privilege, audit des acces. Voir aussi : Vault, DevSecOps, CI/CD
307. CI/CD Pipeline Security
Definition : Securite des pipelines d integration et deploiement continu : protection contre les attaques supply chain, injection de code et privilege escalation.
Risques : pipeline injection (modification du code de build), dependency confusion , secrets exposure (logs, artefacts), self-hosted runner compromise , unsigned artifacts . Protections : least privilege runners , ephemeral runners , OIDC federation (pas de secrets long-lived), artifact signing (Sigstore), policy enforcement (OPA/Gatekeeper). Voir aussi : DevSecOps, SLSA, Supply Chain
43. Social Engineering et Phishing
Techniques de manipulation humaine et attaques par ingenierie sociale.
308. Spear Phishing
Definition : Attaque de phishing ciblee visant une personne ou un groupe specifique, utilisant des informations personnalisees pour augmenter la credibilite.
Contrairement au phishing de masse, le spear phishing est personnalise : l attaquant utilise des informations OSINT (LinkedIn, site web, organigramme) pour creer un pretexte credible. Vecteurs : email, SMS (smishing), appel (vishing), reseaux sociaux. Le spear phishing est le vecteur d intrusion initial de la majorite des APTs. Defense : awareness training, email security (anti-spoofing, sandboxing), DMARC/SPF/DKIM. Voir aussi : Phishing, Social Engineering, OSINT
309. Business Email Compromise (BEC)
Definition : Attaque ou l attaquant usurpe l identite d un dirigeant ou d un partenaire de confiance pour obtenir un virement bancaire ou des informations sensibles.
Le BEC cause les pertes financieres les plus elevees parmi toutes les categories de cybercrime (FBI IC3 : 2.9 milliards USD en 2023). Techniques : CEO fraud (faux email du PDG demandant un virement), vendor impersonation (faux fournisseur avec RIB modifie), payroll diversion (changement de RIB employe). Defense : processus de validation multi-canal pour les virements, DMARC strict, awareness des equipes finance. Voir aussi : Spear Phishing, Vishing, Fraude
310. Vishing (Voice Phishing)
Definition : Attaque de phishing par telephone ou VoIP, utilisant l urgence et l autorite pour manipuler la victime.
L attaquant se fait passer pour un support technique, une banque, ou un collegue. Le voice cloning par IA rend ces attaques plus convaincantes. Techniques : caller ID spoofing (afficher un numero legitime), pretexting (scenario credible), urgence (votre compte est compromis). Le vishing cible souvent les helpdesks pour obtenir un reset de mot de passe (technique utilisee dans le hack Uber 2022). Voir aussi : Phishing, BEC, Social Engineering
44. Logging et Monitoring
Collecte, analyse et monitoring des logs de securite.
311. SIEM (Security Information and Event Management)
Definition : Plateforme centralisant la collecte, la correlation et l analyse des logs de securite pour la detection des menaces et la conformite.
Fonctionnalites : log collection (agents, syslog, API), parsing/normalization , correlation rules , alerting , dashboards , compliance reporting . Solutions : Splunk (leader, couteux), Microsoft Sentinel (cloud-native), Elastic Security (open source), QRadar (IBM), Wazuh (open source). Le SIEM est le coeur du SOC. Tendance : convergence SIEM + SOAR + XDR. Voir aussi : SOC, XDR, SOAR, Log Management
312. ELK Stack (Elastic Stack)
Definition : Suite open source pour la collecte, l indexation, l analyse et la visualisation de logs : Elasticsearch, Logstash, Kibana, Beats.
Beats (agents legers de collecte), Logstash (pipeline d ingestion et transformation), Elasticsearch (moteur de recherche et indexation), Kibana (visualisation et dashboards). Utilise comme SIEM avec Elastic Security (regles de detection, timeline investigation). Alternative : OpenSearch (fork AWS). Performance : peut ingerer des TB/jour de logs avec un cluster correctement dimensionne. Voir aussi : SIEM, Elasticsearch, Log Management
313. Log4Shell (CVE-2021-44228)
Definition : Vulnerabilite critique (CVSS 10.0) dans Apache Log4j permettant l execution de code a distance via une injection JNDI dans les messages de log.
La vulnerabilite exploite le lookup JNDI de Log4j : un attaquant envoie une chaine malveillante qui force le serveur a charger et executer du code depuis un serveur LDAP/RMI externe. Impact massif : Log4j est utilise dans des millions d applications Java (Minecraft, ElasticSearch, VMware, Apache Struts). Lessons learned : importance du SBOM, de la SCA, et de la capacite a identifier rapidement les composants affectes dans son parc. Voir aussi : SBOM, SCA, JNDI, Java Security
45. Blockchain et Crypto Security
Securite des blockchains, smart contracts et ecosysteme crypto.
314. Smart Contract Security
Definition : Securite des smart contracts (Solidity, Vyper) : reentrancy, integer overflow, access control, oracle manipulation.
Vulnerabilites classiques : reentrancy (The DAO hack, 60M USD), integer overflow/underflow , access control (fonctions admin non protegees), oracle manipulation (prix manipule via flash loans), front-running (MEV). Outils d audit : Slither (analyse statique), Mythril (symbolic execution), Foundry (fuzzing), Certora Prover (formal verification). Les audits de smart contracts sont obligatoires avant le deploiement. Voir aussi : Blockchain, Solidity, DeFi
315. Wallet Security
Definition : Securite des portefeuilles de cryptomonnaies : hot wallets, cold wallets, hardware wallets, multisig, MPC wallets.
Types : Hot wallet (connecte a internet, pratique mais risque), Cold wallet (offline, plus securise), Hardware wallet (Ledger, Trezor — cle privee dans un element securise), Multisig (N-of-M signatures requises), MPC wallet (cle fragmentee entre plusieurs parties). Risques : phishing de seed phrase, malware clipboard hijacking, supply chain attack sur hardware wallets, SIM swapping pour le 2FA. Voir aussi : Cryptomonnaie, Ledger, Seed Phrase
46. Securite Physique
Securite physique des datacenters, locaux et equipements.
316. Physical Penetration Testing
Definition : Test d intrusion physique evaluant la securite des batiments, des controles d acces et la sensibilisation des employes au tailgating et au pretexting.
Techniques : tailgating/piggybacking (suivre un employe autorise), badge cloning (copie de cartes RFID avec Proxmark), lock picking , dumpster diving (fouille des poubelles), pretexting (se faire passer pour un technicien). Objectifs : acceder aux locaux, brancher un implant reseau (dropbox), acceder aux postes de travail. Le pentest physique est souvent le maillon faible oublie des programmes de securite. Voir aussi : Red Team, Social Engineering, RFID
317. RFID/NFC Security
Definition : Securite des technologies RFID et NFC utilisees dans les badges d acces, les cartes bancaires sans contact et les passeports electroniques.
Attaques : cloning (copie de cartes RFID 125kHz avec Proxmark3), relay attack (NFC relay entre la carte et le lecteur a distance), eavesdropping (interception des communications), fuzzing (envoi de donnees malformees). Les cartes HID iClass et MIFARE Classic ont des vulnerabilites connues. Defense : cartes a chiffrement fort (DESFire EV3), detection de relay, timeout court. Voir aussi : Badge, NFC, Proxmark
47. Carrieres et Certifications
Certifications, parcours de carriere et competences en cybersecurite.
318. OSCP (Offensive Security Certified Professional)
Definition : Certification pratique de pentest d Offensive Security, reconnue comme la reference pour les pentesters.
L examen OSCP est un CTF de 24h ou le candidat doit compromettre plusieurs machines et rediger un rapport. Prerequis : maitrise de Linux, reseaux, scripting, et methodologie de pentest. Le cours PEN-200 (PWK) couvre : enumeration, exploitation, privilege escalation, pivoting, buffer overflow. L OSCP est la certification la plus demandee pour les postes de pentester. Certifications avancees : OSEP, OSED, OSWE. Voir aussi : Pentest, Certification, Offensive Security
319. CISSP (Certified Information Systems Security Professional)
Definition : Certification de management de la securite de l information de (ISC)2, couvrant 8 domaines de connaissances.
8 domaines : Security & Risk Management, Asset Security, Security Architecture, Communication & Network Security, IAM, Security Assessment & Testing, Security Operations, Software Development Security. L examen CAT dure 3h (100-150 questions). Prerequis : 5 ans d experience (ou 4 avec un diplome). Le CISSP est la certification la plus demandee pour les postes de RSSI et security manager. Voir aussi : RSSI, Certification, Security Management
320. CEH (Certified Ethical Hacker)
Definition : Certification de hacking ethique d EC-Council couvrant les outils et techniques d attaque.
Le CEH couvre : reconnaissance, scanning, enumeration, exploitation, post-exploitation, web hacking, social engineering, malware, cryptography. L examen est un QCM de 125 questions en 4h. Critique : le CEH est souvent considere comme trop theorique par rapport a l OSCP (pas d examen pratique obligatoire). Le CEH Practical (examen de 6h sur un lab) comble partiellement cette lacune. Voir aussi : OSCP, Certification, Ethical Hacking
48. Cloud Native Security
Securite des architectures cloud-native, serverless et multi-cloud.
321. CSPM (Cloud Security Posture Management)
Definition : Solution de surveillance continue de la configuration et de la conformite des environnements cloud (AWS, Azure, GCP).
CSPM detecte les misconfigurations : S3 buckets publics, security groups trop ouverts, MFA non active, logging desactive, chiffrement manquant. Solutions : Prisma Cloud (Palo Alto), Wiz , Orca Security , AWS Security Hub , Microsoft Defender for Cloud . Les misconfigurations cloud sont la cause numero 1 des breaches cloud. CSPM est souvent integre dans les plateformes CNAPP. Voir aussi : CNAPP, Cloud Security, Misconfiguration
322. CNAPP (Cloud-Native Application Protection Platform)
Definition : Plateforme unifiee combinant CSPM, CWPP, CIEM et d autres capacites pour la securite des applications cloud-native.
CNAPP integre : CSPM (posture management), CWPP (workload protection), CIEM (entitlements management), IaC scanning , container security , API security . Leaders : Wiz , Prisma Cloud , Orca , Lacework . CNAPP represente la convergence des outils de securite cloud en une plateforme unique avec un graph de risque unifie. Voir aussi : CSPM, CWPP, Cloud Security
323. Serverless Security
Definition : Securite des architectures serverless (AWS Lambda, Azure Functions, Google Cloud Functions) : injection, privilege escalation, event injection.
Risques specifiques : event injection (donnees malveillantes dans les triggers), over-permissive IAM roles , dependency vulnerabilities , data leakage via /tmp , cold start timing attacks . Avantages securite : pas de serveur a patcher, isolation par execution, ephemere. Le serverless deplace la responsabilite : moins d infra a gerer, plus de focus sur le code et les permissions. Voir aussi : Cloud Security, Lambda, FaaS
324. CIEM (Cloud Infrastructure Entitlement Management)
Definition : Solution gerant et optimisant les permissions et droits d acces dans les environnements cloud multi-comptes.
Les environnements cloud ont des milliers d identites (utilisateurs, service accounts, roles) avec des permissions souvent excessives. CIEM detecte : over-privileged identities , unused permissions , toxic combinations (permissions permettant une escalation), cross-account access . Solutions : Wiz , Ermetic , CloudKnox (Microsoft), Sonrai . Le principe de least privilege dans le cloud est un defi majeur sans CIEM. Voir aussi : IAM, Cloud Security, CSPM
325. FinOps et Security
Definition : Intersection entre l optimisation des couts cloud (FinOps) et la securite : les ressources cloud non securisees generent des surcouts.
Exemples : le cryptojacking (minage de crypto sur des instances compromises) genere des factures cloud de dizaines de milliers d euros. Les buckets S3 publics avec des transferts massifs. Les instances zombies non patchees consommant des ressources. La collaboration FinOps-Security permet de detecter les anomalies de cout comme indicateur de compromission et d optimiser les depenses securite cloud. Voir aussi : Cloud Security, Cryptojacking, Cost Optimization
49. Threat Hunting et Detection Engineering
Chasse aux menaces proactive et ingenierie de detection.
326. Threat Hunting
Definition : Recherche proactive de menaces dans un environnement informatique, partant de l hypothese que l adversaire est deja present dans le reseau.
Contrairement a la detection reactive (alertes SIEM/EDR), le threat hunting est proactif. Methodologie : hypothesis-driven (basee sur CTI : un APT utilise telle technique), data-driven (anomalies statistiques dans les logs), TTP-driven (MITRE ATT&CK). Outils : SIEM (requetes ad hoc), EDR (telemetry queries), Jupyter notebooks (analyse ML). Livrables : nouvelles detections (Sigma/YARA rules), amelioration des controles. Voir aussi : Detection Engineering, MITRE ATT&CK, CTI
327. Detection Engineering
Definition : Discipline de conception, implementation, test et maintenance des regles de detection dans le SOC.
Le detection engineer cree et maintient les regles de detection (Sigma, Splunk SPL, KQL) en s appuyant sur MITRE ATT&CK et la CTI. Processus : hypothese (quelle technique detecter), data requirements (quels logs sont necessaires), rule writing (logique de detection), testing (purple team, Atomic Red Team), tuning (reduction des faux positifs). DeTT&CT permet de mesurer la couverture de detection par rapport a ATT&CK. Voir aussi : Sigma Rules, MITRE ATT&CK, SOC
328. Pyramid of Pain
Definition : Modele de David Bianco classant les indicateurs de menace par la difficulte pour l attaquant de les modifier.
Du bas (facile a changer) vers le haut (difficile) : Hash Values (trivial a modifier), IP Addresses (facile, rotation de proxies), Domain Names (moyennement difficile), Network/Host Artifacts (oblige a modifier les outils), Tools (oblige a developper de nouveaux outils), TTPs (oblige a changer de comportement — le plus couteux). Le message : concentrer les detections sur les TTPs, pas sur les IoCs atomiques. Voir aussi : Threat Hunting, IoC, Detection
50. Concepts Avances et Divers
Concepts transversaux et avances en cybersecurite.
329. Cyber Resilience
Definition : Capacite d une organisation a anticiper, resister, se retablir et s adapter face aux cyberattaques tout en maintenant ses operations essentielles.
La resilience va au-dela de la prevention : elle assume que les attaques reussiront et prepare l organisation a continuer d operer. Composants : BCP (Business Continuity Plan), DRP (Disaster Recovery Plan), incident response , backups immutables , exercices de crise (tabletop), communication de crise . Reglementations : DORA (finance), NIS2 (entites essentielles). Metriques : RTO, RPO, MTTR. Voir aussi : BCP, DRP, DORA, Incident Response
330. Attack Surface Management (ASM)
Definition : Decouverte, inventaire et monitoring continu de tous les actifs exposes d une organisation sur Internet.
ASM cartographie la surface d attaque externe : domaines, sous-domaines, IPs, ports ouverts, certificats, applications web, APIs, cloud assets. Solutions : Censys , Shodan , CrowdStrike Falcon Surface , Microsoft Defender EASM , Mandiant Advantage ASM . L ASM identifie les assets oublies (shadow IT), les misconfigurations exposees et les vulnerabilites exploitables. Essentiel pour les organisations avec un perimetre etendu. Voir aussi : Shadow IT, EASM, Reconnaissance
331. Purple Team
Definition : Approche collaborative ou les equipes Red Team (attaque) et Blue Team (defense) travaillent ensemble pour ameliorer les capacites de detection et de reponse.
Le purple teaming combine l expertise offensive et defensive. Processus : le red team execute des techniques (MITRE ATT&CK), le blue team tente de les detecter, les deux equipes analysent les gaps. Outils : Atomic Red Team (tests atomiques MITRE), Caldera (MITRE, simulation automatisee), Vectr (tracking des resultats). Livrables : nouvelles detections (Sigma rules), amelioration des playbooks IR, meilleure couverture ATT&CK. Voir aussi : Red Team, Blue Team, MITRE ATT&CK
332. Deception Technology
Definition : Technologie deployant des leurres (honeypots, honeytokens, fake credentials) pour detecter les intrusions et ralentir les attaquants.
Types : honeypots (systemes factices attirant les attaquants), honeytokens (faux credentials, faux documents traceables), honey networks (reseaux entiers factices). Solutions : Thinkst Canary (simple et efficace), Attivo (SentinelOne), Illusive Networks . Avantage : zero faux positif — toute interaction avec un leurre est suspecte. La deception est un complement puissant aux detections basees sur les signatures et le comportement. Voir aussi : Honeypot, Threat Detection, Red Team
333. Chaos Engineering for Security
Definition : Application des principes du chaos engineering a la securite : injecter des defaillances de securite pour tester la resilience des defenses.
Inspire par Netflix Chaos Monkey, le chaos engineering de securite teste : les alertes se declenchent-elles quand un controle est desactive ? Le SOC reagit-il quand un malware est simule ? Le failover fonctionne-t-il quand un composant securite tombe ? Outils : Gremlin (platform), Security Chaos Engineering (livre d Aaron Rinehart). L objectif est de decouvrir les faiblesses en conditions reelles, pas en theorie. Voir aussi : Resilience, Purple Team, Testing
334. Threat Modeling
Definition : Processus structuree d identification et de priorisation des menaces potentielles sur un systeme, une application ou une architecture.
Methodologies : STRIDE (Microsoft — Spoofing, Tampering, Repudiation, Information Disclosure, Denial of Service, Elevation of Privilege), PASTA (Process for Attack Simulation and Threat Analysis), LINDDUN (privacy threats), Attack Trees . Outils : Microsoft Threat Modeling Tool , OWASP Threat Dragon , IriusRisk . Le threat modeling doit etre fait en phase de design (shift-left), pas apres le deploiement. Voir aussi : STRIDE, Security Architecture, SDL
335. Security Champions
Definition : Programme designant des developpeurs volontaires comme points de contact securite au sein de leurs equipes de developpement.
Les Security Champions sont des developpeurs formes a la securite qui : promeuvent les bonnes pratiques dans leur equipe, revisernt le code pour les vulnerabilites, remontent les problemes a l equipe securite, diffusent les alertes (nouvelles vulnerabilites, nouvelles politiques). Benefices : mise a l echelle de la securite (l equipe securite ne peut pas etre partout), culture securite amelioree, reduction du temps de remediation. Voir aussi : DevSecOps, Culture Securite, SDL
336. Tabletop Exercise
Definition : Exercice de simulation de crise cyber ou les participants discutent leurs roles et actions face a un scenario d incident fictif, sans manipulation technique.
Un tabletop exercise reunit les parties prenantes (IT, securite, juridique, communication, direction) autour d un scenario realiste (ransomware, data breach, compromission supply chain). Objectifs : tester le plan de reponse, identifier les gaps, ameliorer la coordination. Duree : 2-4h. Facilitateur : externe ou interne. Livrable : rapport avec recommandations. Les tabletop exercises sont requis par NIS2, DORA et PCI DSS. Voir aussi : Incident Response, BCP, Resilience
337. Cyber Insurance
Definition : Assurance couvrant les pertes financieres liees aux incidents de cybersecurite : frais de reponse, rancon, pertes d exploitation, responsabilite civile.
Les polices couvrent : first-party (pertes de l assure : forensics, notification, restauration, perte de CA) et third-party (reclamations des tiers : clients, regulateurs). Les assureurs exigent de plus en plus : MFA, EDR, backup teste, plan IR, formation des employes. Les primes augmentent et les exclusions se multiplient (actes de guerre, vulnerabilites non patchees). Le marche se durcit face a l augmentation des sinistres ransomware. Voir aussi : Risk Management, Ransomware, BCP
338. Security Awareness Training
Definition : Programme de formation des employes aux bonnes pratiques de cybersecurite et a la reconnaissance des menaces (phishing, social engineering).
Composants : e-learning (modules interactifs), phishing simulation (campagnes de test), micro-learning (contenus courts reguliers), gamification (challenges, classements). Plateformes : KnowBe4 (leader), Proofpoint SAT , Cofense , Terranova . KPIs : taux de clic sur phishing simule (objectif inferieur a 5%), taux de signalement, completion des modules. La sensibilisation est le meilleur ROI en securite pour reduire le risque humain. Voir aussi : Phishing, Social Engineering, Culture
339. SOC (Security Operations Center)
Definition : Centre operationnel de securite assurant la surveillance, la detection et la reponse aux incidents de securite 24/7.
Roles : SOC Analyst L1 (triage des alertes), L2 (investigation approfondie), L3 (threat hunting, forensics), SOC Manager . Outils : SIEM, EDR/XDR, SOAR, TIP (Threat Intelligence Platform). Modeles : SOC interne, SOC managee (MSSP), SOC hybride. Metriques : MTTD (Mean Time to Detect), MTTR (Mean Time to Respond), taux de faux positifs, couverture ATT&CK. Le SOC moderne integre de plus en plus d automatisation (SOAR) et d IA. Voir aussi : SIEM, XDR, SOAR, MSSP
340. MSSP (Managed Security Service Provider)
Definition : Prestataire de services de securite gerant tout ou partie de la securite d une organisation : SOC, SIEM, EDR, vulnerability management.
Services MSSP : managed SOC (surveillance 24/7), managed EDR/XDR , vulnerability management (scan + remediation), managed firewall , incident response retainer . Avantages : economie d echelle, expertise specialisee, couverture 24/7. Inconvenients : dependance, manque de contexte metier, SLA a negocier. MDR (Managed Detection and Response) est un sous-ensemble plus avance, focalisee sur la detection et la reponse. Voir aussi : SOC, MDR, Outsourcing
341. CTF (Capture The Flag)
Definition : Competition de cybersecurite ou les participants resolvent des challenges techniques pour obtenir des flags (chaines de caracteres prouvant la resolution).
Formats : Jeopardy (categories de challenges : web, crypto, reverse, pwn, forensics, misc), Attack-Defense (equipes attaquent et defendent des services), King of the Hill (maintenir le controle d une machine). Plateformes permanentes : Hack The Box , TryHackMe , Root-Me , PicoCTF . Competitions majeures : DEF CON CTF, Google CTF, FCSC (France). Les CTFs sont le meilleur moyen de progresser en securite offensive. Voir aussi : Pentest, Training, Hack The Box
342. Red Team vs Blue Team
Definition : Concepts organisationnels de la securite : l equipe rouge (offensive, simulation d attaques) versus l equipe bleue (defensive, detection et reponse).
Red Team : simule des attaques realistes (APT simulation) sur une duree longue, avec des objectifs specifiques (acceder a un systeme critique, exfiltrer des donnees). Utilise des TTPs d APTs reels. Blue Team : detecte et repond aux attaques. Surveille le SIEM, analyse les alertes EDR, investigue les incidents. La collaboration Red-Blue (Purple Team) est la plus efficace pour ameliorer la posture de securite. Voir aussi : Purple Team, Pentest, SOC
343. Ransomware Defense
Definition : Strategies et technologies de defense contre les ransomware : prevention, detection, reponse et recuperation.
Prevention : email security (anti-phishing), patch management , MFA , least privilege , network segmentation . Detection : EDR (behavioural detection), canary files (fichiers leurres). Reponse : isolation des systemes infectes, forensics (identifier le vecteur). Recuperation : backups immutables (3-2-1 rule, air-gapped), tested restore procedures . Ne pas payer la rancon sauf en dernier recours (pas de garantie, finance le crime). Voir aussi : Ransomware, Backup, EDR, Incident Response
344. Vulnerability Disclosure Program (VDP)
Definition : Programme formel permettant aux chercheurs en securite de signaler des vulnerabilites a une organisation de maniere coordonnee et securisee.
Un VDP definit : le scope (quels systemes sont concernes), les regles d engagement (ce qui est autorise), le processus de soumission, les delais de remediation et la politique de communication. Difference avec bug bounty : le VDP ne propose pas necessairement de recompense financiere. Le VDP est recommande par l ANSSI, la CISA et le NIST. ISO 29147 et ISO 30111 standardisent le processus de divulgation coordonnee. Voir aussi : Bug Bounty, Responsible Disclosure, ANSSI
345. Secure SDLC (Software Development Lifecycle)
Definition : Integration de la securite a chaque phase du cycle de vie du developpement logiciel : requirements, design, implementation, testing, deployment, maintenance.
Phases : Requirements (security requirements, abuse cases), Design (threat modeling, security architecture), Implementation (secure coding, SAST, code review), Testing (DAST, pentest, fuzzing), Deployment (hardening, secrets management), Maintenance (patching, monitoring). Frameworks : Microsoft SDL , OWASP SAMM , BSIMM . Le shift-left consiste a detecter les vulnerabilites le plus tot possible dans le cycle. Voir aussi : DevSecOps, SAST, DAST, Threat Modeling
346. Immutable Infrastructure
Definition : Approche ou les serveurs ne sont jamais modifies apres deploiement : toute modification necessite de reconstruire et redeployer une nouvelle instance.
Avantages securite : pas de configuration drift (l etat est toujours connu), pas de persistence (un attaquant ne peut pas modifier le systeme durablement), reproductibilite (chaque instance est identique). Implementation : images machine (AMI, VM images), conteneurs (Docker), Infrastructure as Code (Terraform). Les instances ephemeres et immutables sont un pilier du zero trust et du cloud-native security. Voir aussi : IaC, Container, Cloud Security
347. Honeypot
Definition : Systeme informatique volontairement vulnerable deploye pour attirer, detecter et etudier les attaquants.
Types : low-interaction (simule des services — Cowrie, Dionaea), high-interaction (systeme reel sacrifie — plus risque), research (etude des TTPs), production (detection d intrusion). Honeytokens : faux credentials (canary tokens), faux documents, faux enregistrements DNS. Avantage : zero faux positif (toute interaction est suspecte). Thinkst Canary est la solution la plus deployee en production pour sa simplicite. Voir aussi : Deception Technology, IDS, Threat Detection
348. Cryptojacking
Definition : Utilisation non autorisee des ressources de calcul d un systeme pour miner des cryptomonnaies, souvent via des malwares ou des scripts web.
Vecteurs : malware (installation d un mineur — XMRig pour Monero), scripts navigateur (Coinhive, ferme en 2019), cloud compromise (instances cloud detournees pour le mining). Detection : utilisation CPU anormale , processus inconnus , trafic vers des mining pools , factures cloud anormalement elevees . Le cryptojacking cloud est particulierement couteux et souvent detecte via le monitoring FinOps. Voir aussi : Malware, Cloud Security, Monero
349. Wiper Malware
Definition : Malware dont l objectif est la destruction de donnees et de systemes, sans demande de rancon — utilise dans les operations de sabotage etatique.
Exemples : NotPetya (2017, attribue a la Russie, 10 milliards USD de degats), WhisperGate (2022, Ukraine), Shamoon (2012, Iran vs Arabie Saoudite, 30 000 postes effaces), HermeticWiper (2022, Ukraine). Les wipers ecrasent le MBR, la table de partitions ou les fichiers directement. Pas de recuperation possible sans backup. Defense : backups immutables, EDR, segmentation reseau. Voir aussi : Ransomware, APT, Sabotage
350. Zero-Day Vulnerability
Definition : Vulnerabilite inconnue du vendeur et du public, pour laquelle aucun correctif n existe au moment de sa decouverte ou de son exploitation.
Le terme zero-day designe le fait que le vendeur a eu zero jours pour corriger la vulnerabilite. Les 0-day sont utilises par les APTs (espionnage), les courtiers de vulnerabilites (Zerodium, marche gris) et parfois les bug bounty hunters (marche blanc). Prix marche gris : de 100k USD (XSS Chrome) a 2.5M USD (full chain iOS). Defense : defense in depth , exploit mitigations (ASLR, CFI, sandbox), virtual patching (WAF/IPS), threat hunting basee sur les comportements, pas les signatures. Voir aussi : CVE, Exploit, Patch Management
Synthèse et points clés Les éléments présentés dans cet article mettent en évidence l'importance d'une approche structurée et méthodique. La combinaison de contrôles techniques, de processus organisationnels et de formation continue constitue le socle d'une posture de sécurité mature et résiliente face aux menaces actuelles.
\n