Intelligence Artificielle

Glossaire Complet de l'IA : 50 Termes Essentiels à Connaître

Q: Quelle est la différence entre un token et un embedding ?

Un token est l'unité de base du texte pour un modèle (mot, sous-mot), tandis qu'un embedding est la représentation numérique vectorielle de ce token dans un espace multidimensionnel. Le token est l'input textuel, l'embedding est sa transformation mathématique.

Q: Dois-je fine-tuner mon modèle ou utiliser du RAG ?

RAG est recommandé si vos données changent fréquemment, vous devez citer des sources, ou avez un budget limité. Le fine-tuning est préférable si vous voulez modifier le style/ton du modèle, avez une tâche très spécifique nécessitant des capacités nouvelles, ou avez une latence critique. Souvent, une combinaison des deux est optimale.

Q: Quelle base vectorielle choisir pour mon projet ?

Pinecone est managed, facile et scalable automatiquement mais coûteux. Qdrant est open-source, performant avec bonne intégration Python. Weaviate est multi-modal avec GraphQL, bon pour données hybrides. Milvus est enterprise-grade, très scalable et Kubernetes-native. Chroma est simple, embedded et parfait pour prototypes.

Q: Comment éviter les hallucinations d'un LLM ?

Principales techniques : 1) RAG pour fournir du contexte factuel depuis vos données, 2) Température basse (0-0.3) pour réduire la créativité, 3) Instructions explicites comme 'Réponds uniquement à partir des documents fournis', 4) Fact-checking pour vérifier les claims critiques, 5) Citations en forçant le modèle à citer ses sources.

Q: Combien coûte l'utilisation d'un LLM en production ?

Via API : GPT-4 coûte $0.03/1K tokens input et $0.06/1K output, GPT-3.5 Turbo $0.001/1K tokens (20x moins cher), Claude 3 Opus $0.015/1K input et $0.075/1K output. En self-hosted (LLaMA, Mistral) : infrastructure GPU de $500-5000/mois selon le modèle, sans coût par token, meilleur si plus de 10M tokens/mois.

Par Ayi NEDJIMI Publié le 24 septembre 2025 15 min de lecture

Temps de lecture : 15 minutes | Niveau : Débutant à Intermédiaire

Introduction

L'intelligence artificielle évolue à une vitesse fulgurante, apportant avec elle un vocabulaire technique de plus en plus riche et complexe. Pour les développeurs, data scientists et décideurs qui souhaitent maîtriser l'IA moderne, comprendre ces termes n'est pas optionnel : c'est essentiel.

Ce glossaire IA rassemble les 50 termes les plus importants que vous rencontrerez dans vos projets d'intelligence artificielle, du machine learning classique aux architectures LLM les plus avancées. Que vous travailliez sur des embeddings, des bases vectorielles ou du RAG, ce guide vous servira de référence.

Comment utiliser ce glossaire

Les termes sont organisés par thématique pour faciliter votre apprentissage progressif. Chaque définition inclut :

Explication claire accessible aux débutants
Exemples concrets et cas d'usage réels en production
Ressources externes : documentation officielle, papers académiques
Comparaisons pour comprendre les différences entre concepts similaires
Liens vers articles approfondis pour aller plus loin

1. Termes Fondamentaux de l'IA

1. Intelligence Artificielle (IA / AI)

Définition : Discipline informatique visant à créer des systèmes capables d'effectuer des tâches nécessitant normalement l'intelligence humaine : raisonnement, apprentissage, perception, compréhension du langage naturel, résolution de problèmes complexes.

Exemples concrets en production :

ChatGPT / Claude : Génération de texte, assistance à la programmation, analyse de documents
Systèmes de recommandation : Netflix (films), Spotify (musique), Amazon (produits)
Reconnaissance faciale : Déverrouillage de smartphones (Face ID), contrôle d'accès sécurisé
Diagnostic médical : Détection de cancers sur imagerie médicale (meilleure précision que certains radiologues)
Véhicules autonomes : Tesla Autopilot, Waymo (Google)

Histoire clé : Le terme "Intelligence Artificielle" a été créé en 1956 lors de la conférence de Dartmouth par John McCarthy, Marvin Minsky, Claude Shannon et Nathan Rochester.

Ressources officielles :

2. Machine Learning (ML)

Définition : Sous-domaine de l'IA où les algorithmes apprennent à partir de données sans être explicitement programmés pour chaque cas. Le système détecte des patterns et améliore automatiquement ses performances avec l'expérience.

Types principaux :

Apprentissage supervisé : Données étiquetées (ex: classifier emails spam/non-spam avec exemples annotés)
Apprentissage non supervisé : Découverte de patterns sans étiquettes (ex: segmentation clients)
Apprentissage par renforcement : Agent apprend par essais-erreurs avec récompenses (ex: AlphaGo, robots)

Cas d'usage réels :

Détection de spam : Gmail filtre 99.9% des spams grâce au ML (500M utilisateurs protégés)
Prédiction de prix : Airbnb optimise automatiquement les prix selon 70+ variables
Classification d'images : Google Photos organise vos photos par personnes, lieux, objets automatiquement
Détection de fraude : PayPal analyse 19M transactions/jour en temps réel

Différence avec programmation classique :

Programmation traditionnelle : Règles → Données → Résultats

Machine Learning : Données + Résultats → Modèle découvre les règles

Ressource officielle : Google ML Crash Course

3. Deep Learning (Apprentissage Profond)

Définition : Sous-ensemble du ML utilisant des réseaux de neurones artificiels à plusieurs couches (parfois des centaines) pour traiter des données complexes et non structurées. Inspiré du fonctionnement des neurones biologiques du cerveau.

Pourquoi "profond" : Les réseaux contiennent de nombreuses couches cachées (hidden layers) - parfois 100+ couches dans les architectures modernes comme ResNet-152.

Applications révolutionnaires :

Vision par ordinateur : Reconnaissance d'objets en temps réel (YOLO), diagnostic médical, véhicules autonomes
NLP : GPT-4, traduction automatique (Google Translate traite 100+ langues), chatbots intelligents
Génération d'images : Stable Diffusion, DALL-E 3, Midjourney (créent des images photoréalistes depuis du texte)
Synthèse vocale : Text-to-Speech ultra-réaliste (ElevenLabs, Google WaveNet)
Jeux vidéo / IA : AlphaGo a battu le champion du monde de Go (10^170 positions possibles)

Breakthrough historique : En 2012, AlexNet (réseau convolutif profond) a réduit l'erreur de 26% à 15% sur ImageNet, marquant le début de la révolution Deep Learning.

Ressources techniques :

4. NLP (Natural Language Processing)

Définition : Traitement automatique du langage naturel. Branche de l'IA permettant aux machines de comprendre, interpréter, manipuler et générer du langage humain (texte et parole) de manière contextuelle et cohérente.

Tâches principales :

Analyse de sentiment : Déterminer si un avis est positif/négatif (ex: monitoring réseaux sociaux pour les marques)
Traduction automatique : Google Translate, DeepL (140+ paires de langues)
Résumé de texte : Condenser des documents longs automatiquement
Chatbots / Assistants : ChatGPT, Alexa, Siri, Google Assistant
Named Entity Recognition (NER) : Extraire noms de personnes, lieux, organisations
Question Answering : Répondre à des questions depuis des documents

Cas d'usage business :

Service client automatisé : Zendesk utilise le NLP pour router 60% des tickets automatiquement
Analyse de contrats : Extraction automatique de clauses juridiques (gain de 80% de temps)
Monitoring média : Analyse en temps réel de millions d'articles pour détecter des tendances

Évolution majeure : L'arrivée des transformers en 2017 a révolutionné le NLP, permettant de passer de modèles spécialisés à des LLM généralistes comme GPT.

Ressource académique : Speech and Language Processing (Stanford)

5. LLM (Large Language Model)

Définition : Modèle de langage de grande taille (milliards/trillions de paramètres) entraîné sur d'énormes corpus de texte issus d'Internet. Capable de comprendre le contexte, générer du texte cohérent, raisonner et effectuer des tâches complexes sans entraînement spécifique (few-shot learning).

Principaux LLM et leurs spécificités :

Modèle	Créateur	Paramètres (estimés)	Contexte max	Spécificité
GPT-4	OpenAI	~1.7T	128K tokens	Multimodal (texte + images), raisonnement avancé
Claude 3 Opus	Anthropic	Non divulgué	200K tokens	Long contexte, alignement sécurité
Gemini 1.5 Pro	Google	Non divulgué	1M tokens	Contexte extrême, multimodal natif
LLaMA 3	Meta	8B à 70B	8K tokens	Open-source, performant, self-hostable
Mistral Large	Mistral AI	~123B	32K tokens	Européen, multilingue, efficace

Coût d'entraînement : GPT-4 a coûté environ 100 millions de dollars à entraîner (estimation), nécessitant des clusters de milliers de GPU A100/H100 pendant plusieurs mois.

Données d'entraînement : GPT-3 a été entraîné sur ~45TB de texte compressé (570GB après filtrage), soit l'équivalent de millions de livres.

Capacités émergentes : Les LLM développent spontanément des capacités non explicitement enseignées : raisonnement logique, arithmétique, génération de code, compréhension multilingue.

Papers fondateurs :

Modèles Génératifs

6. IA Générative (Generative AI)

Définition : Systèmes d'IA capables de créer du nouveau contenu original et réaliste (jamais vu pendant l'entraînement) : texte, images, audio, code, vidéo, modèles 3D.

Technologies principales par modalité :

Texte : GPT-4, Claude 3, Gemini (génèrent articles, code, emails...)
Images : DALL-E 3, Midjourney, Stable Diffusion (création depuis descriptions textuelles)
Audio/Musique : Suno AI, Udio (compositions musicales complètes), ElevenLabs (voix synthétique)
Vidéo : Runway Gen-2, Pika Labs (génération vidéo depuis texte/image)
Code : GitHub Copilot, Cursor (assistance programmation en temps réel)
3D : Point-E, Shap-E (modèles 3D depuis texte)

Impact business mesurable :

Productivité développeurs : +55% avec GitHub Copilot (source: étude GitHub 2023)
Création de contenu : Réduction de 80% du temps de production (design, copywriting)
Service client : Chatbots GPT réduisent les tickets de 40%
Marketing : Génération illimitée de variations publicitaires pour A/B testing

Enjeux éthiques : Deepfakes, droits d'auteur (modèles entraînés sur œuvres existantes), désinformation, remplacement d'emplois créatifs.

Ressource : OpenAI Research Blog

7. GAN (Generative Adversarial Network)

Définition : Architecture de deep learning innovante avec deux réseaux de neurones en compétition adversariale : un générateur crée du contenu (fausses images), un discriminateur essaie de distinguer le vrai du faux. Ils s'entraînent mutuellement jusqu'à ce que le générateur produise du contenu indiscernable du réel.

Analogie : C'est comme un faussaire (générateur) qui apprend à créer de faux billets pendant qu'un expert (discriminateur) apprend à les détecter. Chacun force l'autre à s'améliorer.

Histoire : Inventé par Ian Goodfellow en 2014 (alors à l'Université de Montréal). Yann LeCun (pionnier du deep learning) a qualifié les GANs de "idée la plus intéressante des 10 dernières années en ML".

Applications concrètes :

StyleGAN : Génération de visages humains photoréalistes inexistants (thispersondoesnotexist.com)
Deepfakes : Remplacement de visages dans vidéos (usage légitime : doublage cinéma, effets spéciaux)
Augmentation de données : Créer des exemples synthétiques pour datasets médicaux (rare diseases)
Super-résolution : Améliorer la qualité d'images basse résolution
Image-to-image : Transformer croquis en photo réaliste, jour → nuit, etc.

Variantes célèbres : StyleGAN (NVIDIA), CycleGAN (traduction image non supervisée), Pix2Pix, DCGAN.

Évolution : Les GANs ont été partiellement remplacés par les modèles de diffusion (Stable Diffusion, DALL-E 3) qui sont plus stables à entraîner et produisent des résultats supérieurs.

Paper original : Generative Adversarial Networks (Goodfellow et al., 2014)

2. Architecture & Modèles

8. Transformer

Définition : Architecture de réseau de neurones révolutionnaire (2017) utilisant le mécanisme d'attention pour traiter des séquences (texte, images, audio) en parallèle plutôt que séquentiellement. Base architecturale de tous les LLM modernes (GPT, BERT, Claude...).

Innovation clé : Contrairement aux RNN/LSTM qui traitent le texte mot par mot séquentiellement, les transformers analysent tous les mots simultanément en calculant leurs relations mutuelles via l'attention. Cela permet :

Parallélisation massive : Entraînement 10-100x plus rapide sur GPU
Longues dépendances : Capture des relations entre mots distants (début ↔ fin de texte)
Scalabilité : Performance augmente avec la taille (contrairement aux architectures précédentes)

Composants principaux :

Multi-Head Attention : Analyse les relations entre tous les tokens simultanément
Feed-Forward Networks : Transformations non-linéaires
Positional Encoding : Encodage de la position des mots (car traités en parallèle)
Layer Normalization : Stabilisation de l'entraînement

Variantes majeures :

Architecture	Type	Utilisation	Exemples
Encoder-only	Bidirectionnel	Compréhension (classification, NER)	BERT, RoBERTa
Decoder-only	Autoregressif	Génération de texte	GPT, LLaMA, Mistral
Encoder-Decoder	Hybride	Traduction, résumé	T5, BART, mT5

Impact historique : Le paper "Attention is All You Need" (Vaswani et al., Google Brain, 2017) est le paper le plus cité en IA (100,000+ citations). Il a déclenché la révolution actuelle des LLM.

Applications au-delà du NLP :

Vision Transformers (ViT) : Images (surpasse les CNN sur ImageNet)
Audio : Whisper (transcription speech-to-text), MusicGen
Multimodal : CLIP, GPT-4 Vision (texte + images)
Protéines : AlphaFold 2 (prédiction de structure protéique)

Ressources :

9. Attention Mechanism (Mécanisme d'Attention)

Définition : Mécanisme fondamental permettant au modèle de se concentrer dynamiquement sur les parties les plus pertinentes de l'entrée lors du traitement, en calculant des scores d'importance entre tous les éléments. C'est le cœur des transformers.

Analogie simple : Quand vous lisez "La tour Eiffel, construite en 1889, est à Paris", pour répondre à "Où est la tour Eiffel ?", votre cerveau attentionne automatiquement sur "Paris". Le mécanisme d'attention fait la même chose mathématiquement.

Fonctionnement technique (simplifié) :

1. Query (Q) : "Qu'est-ce que je cherche ?" (le mot actuel)

2. Key (K) : "Qu'est-ce que je contiens ?" (chaque mot)

3. Value (V) : "Quelle information j'apporte ?" (contenu de chaque mot)

4. Score : Calcul de similarité Q·K pour déterminer l'importance de chaque mot

Types d'attention :

Self-Attention : Chaque mot analyse sa relation avec tous les autres mots de la phrase ("Attention" dans "Attention is All You Need")
Multi-Head Attention : Plusieurs mécanismes d'attention en parallèle, chacun apprenant différents types de relations (syntaxe, sémantique, références...). GPT-3 utilise 96 heads !
Cross-Attention : Attention entre deux séquences différentes (ex: texte source ↔ traduction)
Masked Attention : Empêche de regarder les mots futurs (utile pour génération autogressive)

Exemple visuel : Pour la phrase "The animal didn't cross the street because it was too tired", l'attention sur le mot "it" montre une forte activation vers "animal" (pas "street"), résolvant l'ambiguïté pronominale.

Avantages vs RNN :

Parallélisation : Tous les tokens traités simultanément (vs séquentiel RNN)
Longues dépendances : Pas de dégradation de signal sur longues distances
Interprétabilité : Les scores d'attention peuvent être visualisés

Coût computationnel : L'attention est en O(n²) par rapport à la longueur de séquence, c'est pourquoi les LLM ont des limites de contexte (ex: 128K tokens pour GPT-4). Des variantes efficaces existent : Sparse Attention, Flash Attention, Linear Attention.

Ressource : Attention? Attention! (Lilian Weng)

10. Token

Définition : Unité atomique de texte traitée par un LLM. Ce n'est ni exactement un mot, ni un caractère, mais une sous-unité linguistique optimisée. Un token peut être un mot entier, une partie de mot (sous-mot), un caractère, un symbole, voire un espace.

Pourquoi des tokens plutôt que des mots ?

Vocabulaire compact : 50K tokens vs millions de mots possibles
Mots rares : "anticonstitutionnellement" découpé en sous-mots connus
Multilingue : Même tokenizer pour 100+ langues
Ponctuation & code : Gestion unifiée

Exemples de tokenization (GPT tokenizer) :

"Hello world" → ["Hello", " world"] (2 tokens)

"Intelligence artificielle" → ["Intel", "ligence", " art", "ific", "ielle"] (5 tokens)

"ChatGPT" → ["Chat", "G", "PT"] (3 tokens)

"42" → ["42"] (1 token)

Règle empirique : En anglais, 1 token ≈ 0.75 mots (4 tokens ≈ 3 mots). En français, 1 token ≈ 0.6 mots (plus de découpage car moins représenté dans l'entraînement).

Algorithmes de tokenization :

BPE (Byte Pair Encoding) : Utilisé par GPT, fusionne itérativement les paires fréquentes
WordPiece : Utilisé par BERT, variante de BPE
SentencePiece : Utilisé par LLaMA, Mistral, indépendant de la langue

Impact sur les limites de contexte :

Modèle	Contexte max	Mots approx. (EN)	Équivalent
GPT-3.5	4K tokens	~3K mots	6 pages
GPT-4	128K tokens	~96K mots	~200 pages
Claude 3	200K tokens	~150K mots	~300 pages
Gemini 1.5 Pro	1M tokens	~750K mots	~1500 pages

Coût : Les API LLM facturent au token. Ex: GPT-4 = $0.03/1K tokens input. Optimiser sa tokenization = réduire les coûts.

Outil pratique : OpenAI Tokenizer (visualiser le découpage)

11. Embedding (Plongement Lexical / Vectoriel)

Définition : Représentation numérique d'un mot, phrase, document ou tout élément (image, audio...) sous forme de vecteur dense dans un espace multi-dimensionnel (typiquement 384 à 4096 dimensions). C'est la transformation mathématique qui permet aux machines de "comprendre" le sens.

Principe fondamental : Des éléments sémantiquement similaires ont des embeddings géométriquement proches dans l'espace vectoriel. La distance entre vecteurs reflète la similarité de sens.

Exemple visuel (simplifié en 2D) :

"roi"       [0.8, 0.9]     proche de "reine"    [0.75, 0.85]
"chat"      [0.2, 0.3]     proche de "chien"    [0.25, 0.35]
"voiture"   [-0.5, 0.1]    éloigné de "roi"    [0.8, 0.9]

Relation algébrique célèbre :

embedding("roi") - embedding("homme") + embedding("femme") ≈ embedding("reine")

Cette propriété mathématique montre que les embeddings capturent des relations sémantiques complexes.

Techniques d'embedding par époque :

Technique	Année	Dimensions	Portée	Usage actuel
Word2Vec	2013	100-300	Mot seul	Légacy, simple
GloVe	2014	50-300	Mot seul	Légacy
FastText	2016	100-300	Mot + sous-mots	Langues rares
BERT embeddings	2018	768-1024	Contexte phrase	Classification
OpenAI ada-002	2022	1536	Texte long	RAG, recherche
text-embedding-3-large	2024	3072	Texte + multilingue	Production actuelle

Applications concrètes :

Recherche sémantique : Google Search comprend "capital France" → "Paris" (pas juste keywords)
Systèmes RAG : Retrouver documents pertinents par sens, pas par mots exacts
Clustering : Regrouper automatiquement articles similaires
Déduplication : Détecter contenus quasi-identiques même reformulés
Recommandation : "Clients qui ont aimé X aimeront Y" (Netflix, Spotify)
Détection d'anomalies : Textes anormalement éloignés = suspicion de fraude

Coût API (OpenAI) : text-embedding-3-large = $0.00013/1K tokens (très économique vs LLM)

Open-source populaires :

Sentence-Transformers : Librairie Python référence (SBERT, MPNet)
all-MiniLM-L6-v2 : 384 dim, rapide, qualité correcte (idéal prototypes)
e5-large-v2 : 1024 dim, excellent rapport qualité/prix

Ressources :

12. Dimension (d'un embedding)

Définition : Nombre de valeurs numériques (coordonnées) composant un vecteur d'embedding. Chaque dimension capture un aspect différent du sens (syntaxe, sémantique, contexte, domaine...).

Exemples de dimensionnalités courantes :

384 dimensions : all-MiniLM-L6-v2 (rapide, léger, 80MB)
768 dimensions : BERT-base, MPNet-base (standard académique)
1536 dimensions : OpenAI text-embedding-ada-002 (production)
3072 dimensions : OpenAI text-embedding-3-large (state-of-the-art)
4096 dimensions : Voyage AI, Cohere (ultra-précis)

Trade-offs dimensionnalité :

Plus de dimensions (↑) :

✔️ Meilleure précision / nuance sémantique
✔️ Moins de collisions (vecteurs identiques pour textes différents)
❌ Coût stockage x2 (1536 dim = 6KB vs 768 dim = 3KB par vecteur)
❌ Calcul de similarité plus lent
❌ Nécessite plus de données d'entraînement

Moins de dimensions (↓) :

✔️ Rapide (recherche 10x plus rapide)
✔️ Économique (stockage, mémoire, coûts cloud)
❌ Perte de nuance sémantique

Impact sur stockage (1M vecteurs) :

384 dim : ~1.5 GB
768 dim : ~3 GB
1536 dim : ~6 GB
3072 dim : ~12 GB

Règle empirique : Utilisez 384-768 dim pour prototypes/MVPs, 1536+ dim pour production exigeante (RAG médical, juridique, finance).

Matryoshka Embeddings : Nouvelle approche (2024) permettant de tronquer dynamiquement les dimensions (ex: utiliser seulement les 512 premières dim d'un modèle 1536) avec perte minimale de qualité.

Paramètres et Contexte

13. Paramètre (d'un modèle)

Définition : Valeur numérique ajustable dans un réseau de neurones (poids des connexions, biais) qui est apprise automatiquement pendant l'entraînement. Plus un modèle a de paramètres, plus il peut capturer de patterns complexes (mais nécessite plus de données et calcul).

Échelle des modèles modernes :

Modèle	Paramètres	Taille disque	RAM GPU min	Usage
GPT-2	1.5B	~6 GB	8 GB	Éducatif
LLaMA 2 7B	7B	~13 GB	16 GB	Local, prototypes
Mistral 7B	7.3B	~14 GB	16 GB	Production légère
LLaMA 2 70B	70B	~140 GB	80 GB (2x A100)	Production avancée
GPT-3	175B	~350 GB	320 GB (4x A100)	API seulement
GPT-4	~1.7T (estimé)	~3.5 TB	Cluster GPU	API seulement

Règle empirique : En FP16 (half precision), 1 milliard de paramètres = ~2 GB de stockage. Avec quantization INT8, on divise par 2 (1B = ~1 GB).

Mythe à déconstruire : "Plus de paramètres = toujours meilleur" est FAUX. Mistral 7B surpasse LLaMA 2 13B grâce à une meilleure architecture et données d'entraînement. La qualité dépend de : paramètres + architecture + données + entraînement.

14. Context Window (Fenêtre de Contexte)

Définition : Quantité maximale de texte (mesurée en tokens) qu'un LLM peut "voir" et traiter simultanément en une seule fois. Incluant le prompt, l'historique de conversation ET la réponse générée. Une fois cette limite atteinte, le modèle "oublie" le début.

Évolution des contextes (2020 → 2024) :

2020 : GPT-3 = 2K tokens (~1500 mots) → 1 page

2022 : GPT-3.5 = 4K tokens → 3 pages

2023 : GPT-4 = 32K tokens → 25 pages, Claude 2 = 100K → 75 pages

2024 : Gemini 1.5 Pro = 1M tokens → 700 pages (roman entier !)

Comparaison modèles actuels :

Modèle	Contexte	Mots (approx)	Équivalent	Cas d'usage
GPT-3.5 Turbo	16K	~12K	24 pages	Conversations courtes
GPT-4	128K	~96K	192 pages	Analyse documents longs
Claude 3 Opus	200K	~150K	300 pages	Livres, rapports annuels
Gemini 1.5 Pro	1M	~750K	1500 pages	Codebases entières, corpus

Limitation technique : L'attention est en O(n²) : doubler le contexte = quadrupler le temps de calcul. C'est pourquoi passer de 100K à 1M tokens est un exploit technique majeur (optimisations comme Flash Attention, Ring Attention).

Coût impacté : Plus de contexte = plus cher. GPT-4 avec 128K coûte 2x plus cher que 8K. Optimisez en ne passant que le contexte nécessaire.

Cas d'usage concrets :

16K : Chatbots, assistance code (quelques fichiers)
128K : Analyse contrats juridiques, rapports techniques
200K+ : Analyse codebases, livres entiers, audits complets
1M : Recherche académique (analyser 50 papers), due diligence M&A

Besoin d'Expertise en Intelligence Artificielle ?

Nos experts développent des solutions IA sur-mesure : RAG, bases vectorielles, embeddings personnalisés, LLM fine-tuning. Nous mettons également à disposition des formateurs spécialisés pour centres de formation et écoles d'ingénieurs.

3. Entraînement & Optimisation

15. Training (Entraînement)

Définition : Processus d'apprentissage où le modèle ajuste ses paramètres en minimisant une fonction de perte sur un jeu de données.

Phases : Pre-training (entraînement initial), fine-tuning (ajustement), continual learning.

Coût : Millions de dollars et des mois de calcul pour les grands modèles.

16. Fine-Tuning (Ajustement Fin)

Définition : Ré-entraînement d'un modèle pré-entraîné sur un jeu de données spécifique pour l'adapter à une tâche particulière.

Avantages : Moins coûteux que l'entraînement from scratch, performances supérieures.

Techniques : Full fine-tuning, LoRA, QLoRA, PEFT.

17. LoRA (Low-Rank Adaptation)

Définition : Technique de fine-tuning efficace qui ne modifie qu'une fraction des paramètres du modèle via des matrices de rang faible.

Avantage : Réduit drastiquement la mémoire et le temps de calcul nécessaires.

Usage : Fine-tuning de LLM sur GPU consumer, création de modèles spécialisés.

18. Prompt

Définition : Instruction textuelle donnée à un LLM pour lui indiquer la tâche à effectuer.

Types : Zero-shot (sans exemple), few-shot (avec exemples), chain-of-thought.

Prompt Engineering : Art d'optimiser les prompts pour obtenir les meilleurs résultats.

19. Prompt Engineering

Définition : Discipline consistant à concevoir des prompts optimaux pour maximiser la qualité des réponses d'un LLM.

Techniques : Role prompting, instruction following, format specification, examples provision.

Importance : Peut multiplier par 10 la qualité des résultats sans modifier le modèle.

20. Temperature

Définition : Paramètre contrôlant le degré de créativité/aléatoire des réponses générées par un LLM.

Valeurs :

0 : Déterministe, prévisible (pour des tâches précises)
0.7 : Équilibré (usage général)
1+ : Créatif, surprenant (création de contenu)

21. Inference (Inférence)

Définition : Phase où le modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données.

Métriques : Latence, throughput, tokens/seconde.

Optimisation : Quantization, pruning, distillation.

4. Univers Vectoriel & Recherche Sémantique

22. Vector Database (Base de Données Vectorielle)

Définition : Base de données spécialisée pour stocker et rechercher efficacement des embeddings (vecteurs).

Solutions populaires : Pinecone, Weaviate, Qdrant, Milvus, Chroma, pgvector.

Usage : Recherche sémantique, RAG, systèmes de recommandation.

Article détaillé : Bases vectorielles expliquées

23. Similarity Search (Recherche par Similarité)

Définition : Technique de recherche basée sur la proximité vectorielle plutôt que sur des mots-clés exacts.

Algorithmes : K-Nearest Neighbors (KNN), Approximate Nearest Neighbors (ANN).

Méthode : Calcul de distance (Euclidienne, cosine similarity, dot product).

24. Cosine Similarity (Similarité Cosinus)

Définition : Mesure de similarité entre deux vecteurs basée sur l'angle entre eux (de -1 à 1).

Formule : cos(θ) = (A · B) / (||A|| × ||B||)

Interprétation : 1 = identiques, 0 = orthogonaux, -1 = opposés.

Usage : Mesure standard pour comparer des embeddings.

25. Vector Index (Index Vectoriel)

Définition : Structure de données optimisant la recherche dans un espace vectoriel haute dimension.

Algorithmes : HNSW (Hierarchical Navigable Small World), IVF (Inverted File), PQ (Product Quantization).

Trade-off : Vitesse vs précision vs mémoire.

26. Chunking

Définition : Découpage de documents longs en morceaux plus petits (chunks) avant vectorisation.

Stratégies : Taille fixe, taille sémantique, par paragraphe, recursive splitting.

Paramètres : chunk_size (taille), chunk_overlap (chevauchement).

Impact : Crucial pour la qualité du RAG.

27. Semantic Search (Recherche Sémantique)

Définition : Recherche basée sur le sens et l'intention plutôt que sur les mots-clés exacts.

Technologie : Embeddings + bases vectorielles.

Exemple : Recherche "capital de la France" trouve "Paris" même sans le mot "Paris" dans le texte.

RAG & Retrieval

28. RAG (Retrieval-Augmented Generation)

Définition : Architecture hybride combinant recherche d'information (retrieval dans une base de connaissances) et génération de texte (LLM) pour produire des réponses factuelles, à jour et sourcées basées sur vos propres données. C'est LA technique dominante pour intégrer des LLM avec données privées/spécialisées.

Pipeline RAG détaillé (5 étapes) :

Phase 1 : Indexation (une fois)

Ingestion : Charger documents (PDF, Word, web, DB...)
Chunking : Découper en morceaux de 500-1000 tokens avec overlap 10-20%
Embedding : Convertir chaque chunk en vecteur (OpenAI, SBERT...)
Stockage : Insérer vecteurs + metadata dans base vectorielle

Phase 2 : Query (temps réel)

Question : "Quelle est notre politique de remboursement ?"
Embedding query : Vectoriser la question
Recherche : Trouver top-k chunks similaires (k=3-10) via cosine similarity
Prompt augmenté : Concaténer chunks + question dans prompt
Génération LLM : GPT/Claude génère réponse depuis le contexte fourni
Post-traitement : Ajouter citations, sources, confiance score

Avantages vs Fine-Tuning :

✔️ Données à jour : Ajoutez/modifiez documents instantanément (vs ré-entraînement complet)
✔️ Coût réduit : Indexation = quelques $/1M tokens vs fine-tuning = milliers de $
✔️ Sources traçables : Chaque réponse cite documents sources (conformité, confiance)
✔️ Multi-domaines : Même système pour données RH, juridique, technique...
✔️ Réduit hallucinations : LLM contraint par contexte factuel fourni

Cas d'usage production réels :

Support client : Chatbot répond depuis documentation produit (Intercom, Zendesk)
Recherche juridique : Analyse contrats, jurisprudence (gain 80% temps avocats)
Knowledge base interne : "Slack intelligent" cherchant dans tous docs entreprise
Analyse financière : Q&A sur rapports annuels, earnings calls
Documentation code : GitHub Copilot recherche dans votre codebase
E-commerce : Recherche produits par description naturelle

Architectures avancées :

Naive RAG : Pipeline basique ci-dessus (MVP, prototypes)
Advanced RAG : + reranking (Cohere), hybrid search (BM25 + vector), query expansion
Agentic RAG : Agent décide dynamiquement quelles sources interroger, multi-hop reasoning
GraphRAG : Knowledge graph + vecteurs pour relations complexes (Microsoft 2024)

Stack technique typique :

LLM : GPT-4, Claude 3, Mistral
Embeddings : OpenAI text-embedding-3, Sentence-Transformers
Vector DB : Pinecone, Qdrant, Weaviate, pgvector
Framework : LangChain, LlamaIndex, Haystack
Ingestion : Unstructured, LlamaParse, PyPDF

Limitations & solutions :

Chunking imparfait : Information coupée → Solution : overlap, chunking sémantique
Top-k insuffisant : Info manquante → Solution : augmenter k, hybrid search
Latence : 2-5s (vs 500ms LLM seul) → Solution : caching, embeddings précalculés
Context overflow : Trop de chunks → Solution : reranking, summarization

Coût exemple (1M queries/mois) :

Embeddings : ~$130 (text-embedding-3-large)
Vector DB : $70-300 (selon provider)
LLM calls : $3000-15000 (selon modèle GPT-3.5 vs GPT-4)
Total : $3200-15500/mois (vs fine-tuning initial $50K+)

Ressources :

29. Retrieval (Récupération)

Définition : Phase du RAG où le système recherche les documents/passages les plus pertinents dans une base de connaissances.

Méthodes : Dense retrieval (embeddings), sparse retrieval (BM25), hybrid retrieval.

Métrique : Recall@k (pourcentage de documents pertinents retrouvés dans les k premiers résultats).

30. Hallucination

Définition : Phénomène où un LLM génère du contenu plausible mais factuellement incorrect ou inventé.

Causes : Manque de données d'entraînement, sur-confiance, prompt ambigu.

Solutions : RAG, fact-checking, température basse, instruction explicite.

5. Production & Déploiement

31. 🏭 MLOps (Machine Learning Operations)

Définition : Ensemble de pratiques pour déployer, monitorer et maintenir des modèles ML en production.

Composants : CI/CD pour ML, versioning de modèles, monitoring de performance, retraining automatique.

Outils : MLflow, Kubeflow, Weights & Biases, Neptune.ai.

32. Model Serving

Définition : Infrastructure permettant d'exposer un modèle ML via une API pour l'inférence en temps réel.

Solutions : TorchServe, TensorFlow Serving, NVIDIA Triton, FastAPI custom.

Métriques : Latence, throughput, coût par requête.

33. ⚖️ Quantization

Définition : Technique de compression réduisant la précision des poids d'un modèle (ex: FP32 → INT8) pour diminuer la taille et accélérer l'inférence.

Types : Post-training quantization, quantization-aware training.

Impact : 2-4x plus rapide, 75% de réduction de taille, perte de précision minimale.

34. 🎓 Distillation

Définition : Technique d'entraînement d'un modèle "élève" petit et rapide à imiter un modèle "professeur" large et performant.

Usage : Créer des modèles déployables sur mobile/edge tout en conservant la qualité.

Exemple : DistilBERT (66M param) imite BERT (110M param) avec 97% de performances.

35. Edge AI

Définition : Exécution de modèles IA directement sur des appareils locaux (smartphones, IoT) plutôt que dans le cloud.

Avantages : Latence réduite, confidentialité, fonctionnement offline.

Défis : Ressources limitées (CPU, RAM, batterie).

Éthique & Gouvernance

36. ⚖️ Bias (Biais Algorithmique)

Définition : Discrimination systématique dans les prédictions d'un modèle, souvent héritée des biais dans les données d'entraînement.

Types : Biais de genre, racial, socio-économique.

Solutions : Datasets diversifiés, fairness metrics, audits réguliers.

37. Explainability (Explicabilité)

Définition : Capacité à comprendre et expliquer comment un modèle arrive à ses décisions.

Techniques : SHAP, LIME, attention visualization.

Importance : Conformité réglementaire (RGPD), confiance utilisateur, debugging.

38. 🛡️ AI Safety (Sécurité de l'IA)

Définition : Ensemble de pratiques pour s'assurer qu'un système IA agit de manière sûre, alignée avec les intentions humaines.

Enjeux : Jailbreaking, prompt injection, moderation, red teaming.

Standards : OWASP Top 10 LLM, NIST AI Risk Management Framework.

39. Perplexity (Perplexité)

Définition : Métrique d'évaluation des modèles de langage mesurant la qualité des prédictions. Plus la perplexité est faible, meilleur est le modèle.

Usage : Évaluer et comparer différents LLMs, valider l'efficacité du fine-tuning.

40. Multimodal AI

Définition : Modèles capables de traiter et générer plusieurs types de données simultanément (texte, image, audio, vidéo).

Exemples : GPT-4V (vision), DALL-E 3, Whisper (audio), Claude 3 (multimodal).

41. Semantic Search (Recherche Sémantique)

Définition : Recherche basée sur le sens et l'intention plutôt que sur la correspondance exacte de mots-clés.

Technologie : Utilise les embeddings pour comprendre le contexte et trouver des résultats pertinents même sans mots identiques.

42. Context Window (Fenêtre de Contexte)

Définition : Nombre maximum de tokens qu'un LLM peut traiter simultanément en entrée et sortie.

Exemples : GPT-4 Turbo (128k tokens), Claude 3 (200k tokens), Gemini 1.5 Pro (1M tokens).

43. Checkpoint

Définition : Sauvegarde intermédiaire de l'état d'un modèle pendant l'entraînement, permettant de reprendre ou de revenir à un état antérieur.

Usage : Éviter de perdre des heures d'entraînement en cas de crash, comparer différentes versions du modèle.

44. Inference (Inférence)

Définition : Phase où un modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données.

Différence avec Training : Training = apprentissage, Inference = utilisation en production.

45. Latency (Latence)

Définition : Temps de réponse d'un modèle IA entre la requête et le résultat.

Enjeu : Critique pour les applications temps réel (chatbots, recherche, recommandations). Objectif : <100ms.

46. Synthetic Data (Données Synthétiques)

Définition : Données générées artificiellement par des algorithmes plutôt que collectées du monde réel.

Avantages : Contourner le manque de données, éviter les problèmes de confidentialité, augmenter la diversité.

47. Few-Shot Learning

Définition : Capacité d'un modèle à apprendre une nouvelle tâche avec très peu d'exemples (souvent 1 à 10).

Usage : GPT-4 peut résoudre des tâches complexes avec seulement quelques exemples dans le prompt.

48. Zero-Shot Learning

Définition : Capacité d'un modèle à réaliser une tâche sans aucun exemple d'entraînement spécifique.

Exemple : Demander à GPT-4 de traduire en finnois sans lui donner d'exemples de traduction.

49. Tokenization (Tokenisation)

Définition : Processus de découpage du texte en unités (tokens) que le modèle peut traiter.

Exemple : "Intelligence" peut être découpé en ["Intel", "ligence"] ou rester un seul token selon le tokenizer.

50. Agentic AI (IA Agentique)

Définition : IA capable d'agir de manière autonome pour atteindre des objectifs, prendre des décisions et exécuter des actions complexes.

Exemples : AutoGPT, BabyAGI, agents qui planifient et exécutent des tâches multi-étapes.

Ressources Externes Essentielles

Documentation officielle et ressources académiques de référence :

Papers & Recherche :

Documentation Officielle :

Frameworks :

Bases Vectorielles :

FAQ - Questions Fréquentes

Quelle est la différence entre un token et un embedding ?

Un token est l'unité de base du texte pour un modèle (mot, sous-mot), tandis qu'un embedding est la représentation numérique vectorielle de ce token dans un espace multidimensionnel. Le token est l'input textuel, l'embedding est sa transformation mathématique.

Pour en savoir plus : Embeddings vs Tokens expliqués

Dois-je fine-tuner mon modèle ou utiliser du RAG ?

RAG est recommandé si :

Vos données changent fréquemment
Vous devez citer des sources
Budget limité pour l'entraînement

Fine-tuning est préférable si :

Vous voulez modifier le style/ton du modèle
Tâche très spécifique nécessitant des capacités nouvelles
Latence critique (pas de recherche vectorielle)

Souvent, une combinaison des deux est optimale.

Quelle base vectorielle choisir pour mon projet ?

Pinecone : Managed, facile, scalable automatiquement (mais coûteux)

Qdrant : Open-source, performant, bonne intégration Python

Weaviate : Multi-modal, GraphQL, bonne pour données hybrides

Milvus : Enterprise-grade, très scalable, Kubernetes-native

Chroma : Simple, embedded, parfait pour prototypes

Article détaillé : Comment choisir une base vectorielle

Comment éviter les hallucinations d'un LLM ?

Techniques principales :

RAG : Fournir du contexte factuel depuis vos données
Temperature basse : Réduire la créativité (0-0.3)
Instructions explicites : "Réponds uniquement à partir des documents fournis"
Fact-checking : Vérifier les claims critiques
Citations : Forcer le modèle à citer ses sources

Combien coûte l'utilisation d'un LLM en production ?

Via API (GPT-4, Claude) :

GPT-4 : $0.03/1K tokens input, $0.06/1K output
GPT-3.5 Turbo : $0.001/1K tokens (20x moins cher)
Claude 3 Opus : $0.015/1K input, $0.075/1K output

Self-hosted (LLaMA, Mistral) :

Infrastructure GPU : $500-5000/mois selon le modèle
Pas de coût par token
Meilleur si >10M tokens/mois

Conclusion

Ce glossaire IA de 50 termes essentiels vous donne les fondations pour naviguer dans l'univers de l'intelligence artificielle moderne. De l'architecture des transformers aux subtilités des embeddings, en passant par les systèmes RAG et les bases vectorielles, vous disposez maintenant d'un vocabulaire solide.

L'IA évolue rapidement : de nouveaux termes apparaissent régulièrement. Nous maintenons ce glossaire à jour avec les dernières innovations. Marquez cette page comme référence pour vos projets.

💡 Prochaines Étapes

Maintenant que vous maîtrisez le vocabulaire, approfondissez vos connaissances avec nos guides experts :

Qu'est-ce qu'un embedding ? - Comprendre en profondeur
Bases vectorielles - Architecture et fonctionnement
RAG expliqué - Guide d'implémentation

📚 Articles Connexes

→ Qu'est-ce qu'un embedding ?

Comprendre les représentations vectorielles

→ Vecteurs en IA

Explication simple et exemples

À Propos de l'Auteur

Ayi NEDJIMI • Expert Cybersécurité & IA

Ayi NEDJIMI est un expert senior en cybersécurité offensive et intelligence artificielle avec plus de 20 ans d'expérience en développement avancé, tests d'intrusion et architecture de systèmes critiques. Spécialisé en rétro-ingénierie logicielle, forensics numériques et développement de modèles IA, il accompagne les organisations stratégiques dans la sécurisation d'infrastructures hautement sensibles.

Expert reconnu en expertises judiciaires et investigations forensiques, Ayi intervient régulièrement en tant que consultant expert auprès des plus grandes organisations françaises et européennes. Son expertise technique couvre l'audit Active Directory, le pentest cloud (AWS, Azure, GCP), la rétro-ingénierie de malwares, ainsi que l'implémentation de solutions RAG et bases vectorielles (Milvus, Qdrant, Weaviate) pour des applications IA d'entreprise.

20+ Ans d'expérience

100+ Missions réalisées

150+ Articles & conférences

Conférencier et formateur reconnu en cybersécurité, Ayi anime régulièrement des conférences techniques et participe activement au développement de modèles d'intelligence artificielle pour la détection de menaces avancées. Auteur de plus de 150 publications techniques, il partage son expertise de haut niveau pour aider les RSSI et architectes sécurité à anticiper les cybermenaces émergentes et déployer des solutions IA de nouvelle génération.

📚 Tous ses articles 🛡️ Demander un audit 💼 LinkedIn