Glossaire Complet de l'IA : 50 Termes Essentiels à Connaître
Temps de lecture : 15 minutes | Niveau : Débutant à Intermédiaire
Introduction
L'intelligence artificielle évolue à une vitesse fulgurante, apportant avec elle un vocabulaire technique de plus en plus riche et complexe. Pour les développeurs, data scientists et décideurs qui souhaitent maîtriser l'IA moderne, comprendre ces termes n'est pas optionnel : c'est essentiel.
Ce glossaire IA rassemble les 50 termes les plus importants que vous rencontrerez dans vos projets d'intelligence artificielle, du machine learning classique aux architectures LLM les plus avancées. Que vous travailliez sur des embeddings, des bases vectorielles ou du RAG, ce guide vous servira de référence.
Comment utiliser ce glossaire
Les termes sont organisés par thématique pour faciliter votre apprentissage progressif. Chaque définition inclut :
- Explication claire accessible aux débutants
- Exemples concrets et cas d'usage réels en production
- Ressources externes : documentation officielle, papers académiques
- Comparaisons pour comprendre les différences entre concepts similaires
- Liens vers articles approfondis pour aller plus loin
1. Termes Fondamentaux de l'IA
1. Intelligence Artificielle (IA / AI)
Définition : Discipline informatique visant à créer des systèmes capables d'effectuer des tâches nécessitant normalement l'intelligence humaine : raisonnement, apprentissage, perception, compréhension du langage naturel, résolution de problèmes complexes.
Exemples concrets en production :
- ChatGPT / Claude : Génération de texte, assistance à la programmation, analyse de documents
- Systèmes de recommandation : Netflix (films), Spotify (musique), Amazon (produits)
- Reconnaissance faciale : Déverrouillage de smartphones (Face ID), contrôle d'accès sécurisé
- Diagnostic médical : Détection de cancers sur imagerie médicale (meilleure précision que certains radiologues)
- Véhicules autonomes : Tesla Autopilot, Waymo (Google)
Histoire clé : Le terme "Intelligence Artificielle" a été créé en 1956 lors de la conférence de Dartmouth par John McCarthy, Marvin Minsky, Claude Shannon et Nathan Rochester.
Ressources officielles :
2. Machine Learning (ML)
Définition : Sous-domaine de l'IA où les algorithmes apprennent à partir de données sans être explicitement programmés pour chaque cas. Le système détecte des patterns et améliore automatiquement ses performances avec l'expérience.
Types principaux :
- Apprentissage supervisé : Données étiquetées (ex: classifier emails spam/non-spam avec exemples annotés)
- Apprentissage non supervisé : Découverte de patterns sans étiquettes (ex: segmentation clients)
- Apprentissage par renforcement : Agent apprend par essais-erreurs avec récompenses (ex: AlphaGo, robots)
Cas d'usage réels :
- Détection de spam : Gmail filtre 99.9% des spams grâce au ML (500M utilisateurs protégés)
- Prédiction de prix : Airbnb optimise automatiquement les prix selon 70+ variables
- Classification d'images : Google Photos organise vos photos par personnes, lieux, objets automatiquement
- Détection de fraude : PayPal analyse 19M transactions/jour en temps réel
Différence avec programmation classique :
Programmation traditionnelle : Règles → Données → Résultats
Machine Learning : Données + Résultats → Modèle découvre les règles
Ressource officielle : Google ML Crash Course
3. Deep Learning (Apprentissage Profond)
Définition : Sous-ensemble du ML utilisant des réseaux de neurones artificiels à plusieurs couches (parfois des centaines) pour traiter des données complexes et non structurées. Inspiré du fonctionnement des neurones biologiques du cerveau.
Pourquoi "profond" : Les réseaux contiennent de nombreuses couches cachées (hidden layers) - parfois 100+ couches dans les architectures modernes comme ResNet-152.
Applications révolutionnaires :
- Vision par ordinateur : Reconnaissance d'objets en temps réel (YOLO), diagnostic médical, véhicules autonomes
- NLP : GPT-4, traduction automatique (Google Translate traite 100+ langues), chatbots intelligents
- Génération d'images : Stable Diffusion, DALL-E 3, Midjourney (créent des images photoréalistes depuis du texte)
- Synthèse vocale : Text-to-Speech ultra-réaliste (ElevenLabs, Google WaveNet)
- Jeux vidéo / IA : AlphaGo a battu le champion du monde de Go (10^170 positions possibles)
Breakthrough historique : En 2012, AlexNet (réseau convolutif profond) a réduit l'erreur de 26% à 15% sur ImageNet, marquant le début de la révolution Deep Learning.
Ressources techniques :
4. NLP (Natural Language Processing)
Définition : Traitement automatique du langage naturel. Branche de l'IA permettant aux machines de comprendre, interpréter, manipuler et générer du langage humain (texte et parole) de manière contextuelle et cohérente.
Tâches principales :
- Analyse de sentiment : Déterminer si un avis est positif/négatif (ex: monitoring réseaux sociaux pour les marques)
- Traduction automatique : Google Translate, DeepL (140+ paires de langues)
- Résumé de texte : Condenser des documents longs automatiquement
- Chatbots / Assistants : ChatGPT, Alexa, Siri, Google Assistant
- Named Entity Recognition (NER) : Extraire noms de personnes, lieux, organisations
- Question Answering : Répondre à des questions depuis des documents
Cas d'usage business :
- Service client automatisé : Zendesk utilise le NLP pour router 60% des tickets automatiquement
- Analyse de contrats : Extraction automatique de clauses juridiques (gain de 80% de temps)
- Monitoring média : Analyse en temps réel de millions d'articles pour détecter des tendances
Évolution majeure : L'arrivée des transformers en 2017 a révolutionné le NLP, permettant de passer de modèles spécialisés à des LLM généralistes comme GPT.
Ressource académique : Speech and Language Processing (Stanford)
5. LLM (Large Language Model)
Définition : Modèle de langage de grande taille (milliards/trillions de paramètres) entraîné sur d'énormes corpus de texte issus d'Internet. Capable de comprendre le contexte, générer du texte cohérent, raisonner et effectuer des tâches complexes sans entraînement spécifique (few-shot learning).
Principaux LLM et leurs spécificités :
Modèle | Créateur | Paramètres (estimés) | Contexte max | Spécificité |
---|---|---|---|---|
GPT-4 | OpenAI | ~1.7T | 128K tokens | Multimodal (texte + images), raisonnement avancé |
Claude 3 Opus | Anthropic | Non divulgué | 200K tokens | Long contexte, alignement sécurité |
Gemini 1.5 Pro | Non divulgué | 1M tokens | Contexte extrême, multimodal natif | |
LLaMA 3 | Meta | 8B à 70B | 8K tokens | Open-source, performant, self-hostable |
Mistral Large | Mistral AI | ~123B | 32K tokens | Européen, multilingue, efficace |
Coût d'entraînement : GPT-4 a coûté environ 100 millions de dollars à entraîner (estimation), nécessitant des clusters de milliers de GPU A100/H100 pendant plusieurs mois.
Données d'entraînement : GPT-3 a été entraîné sur ~45TB de texte compressé (570GB après filtrage), soit l'équivalent de millions de livres.
Capacités émergentes : Les LLM développent spontanément des capacités non explicitement enseignées : raisonnement logique, arithmétique, génération de code, compréhension multilingue.
Papers fondateurs :
Modèles Génératifs
6. IA Générative (Generative AI)
Définition : Systèmes d'IA capables de créer du nouveau contenu original et réaliste (jamais vu pendant l'entraînement) : texte, images, audio, code, vidéo, modèles 3D.
Technologies principales par modalité :
- Texte : GPT-4, Claude 3, Gemini (génèrent articles, code, emails...)
- Images : DALL-E 3, Midjourney, Stable Diffusion (création depuis descriptions textuelles)
- Audio/Musique : Suno AI, Udio (compositions musicales complètes), ElevenLabs (voix synthétique)
- Vidéo : Runway Gen-2, Pika Labs (génération vidéo depuis texte/image)
- Code : GitHub Copilot, Cursor (assistance programmation en temps réel)
- 3D : Point-E, Shap-E (modèles 3D depuis texte)
Impact business mesurable :
- Productivité développeurs : +55% avec GitHub Copilot (source: étude GitHub 2023)
- Création de contenu : Réduction de 80% du temps de production (design, copywriting)
- Service client : Chatbots GPT réduisent les tickets de 40%
- Marketing : Génération illimitée de variations publicitaires pour A/B testing
Enjeux éthiques : Deepfakes, droits d'auteur (modèles entraînés sur œuvres existantes), désinformation, remplacement d'emplois créatifs.
Ressource : OpenAI Research Blog
7. GAN (Generative Adversarial Network)
Définition : Architecture de deep learning innovante avec deux réseaux de neurones en compétition adversariale : un générateur crée du contenu (fausses images), un discriminateur essaie de distinguer le vrai du faux. Ils s'entraînent mutuellement jusqu'à ce que le générateur produise du contenu indiscernable du réel.
Analogie : C'est comme un faussaire (générateur) qui apprend à créer de faux billets pendant qu'un expert (discriminateur) apprend à les détecter. Chacun force l'autre à s'améliorer.
Histoire : Inventé par Ian Goodfellow en 2014 (alors à l'Université de Montréal). Yann LeCun (pionnier du deep learning) a qualifié les GANs de "idée la plus intéressante des 10 dernières années en ML".
Applications concrètes :
- StyleGAN : Génération de visages humains photoréalistes inexistants (thispersondoesnotexist.com)
- Deepfakes : Remplacement de visages dans vidéos (usage légitime : doublage cinéma, effets spéciaux)
- Augmentation de données : Créer des exemples synthétiques pour datasets médicaux (rare diseases)
- Super-résolution : Améliorer la qualité d'images basse résolution
- Image-to-image : Transformer croquis en photo réaliste, jour → nuit, etc.
Variantes célèbres : StyleGAN (NVIDIA), CycleGAN (traduction image non supervisée), Pix2Pix, DCGAN.
Évolution : Les GANs ont été partiellement remplacés par les modèles de diffusion (Stable Diffusion, DALL-E 3) qui sont plus stables à entraîner et produisent des résultats supérieurs.
Paper original : Generative Adversarial Networks (Goodfellow et al., 2014)
2. Architecture & Modèles
8. Transformer
Définition : Architecture de réseau de neurones révolutionnaire (2017) utilisant le mécanisme d'attention pour traiter des séquences (texte, images, audio) en parallèle plutôt que séquentiellement. Base architecturale de tous les LLM modernes (GPT, BERT, Claude...).
Innovation clé : Contrairement aux RNN/LSTM qui traitent le texte mot par mot séquentiellement, les transformers analysent tous les mots simultanément en calculant leurs relations mutuelles via l'attention. Cela permet :
- Parallélisation massive : Entraînement 10-100x plus rapide sur GPU
- Longues dépendances : Capture des relations entre mots distants (début ↔ fin de texte)
- Scalabilité : Performance augmente avec la taille (contrairement aux architectures précédentes)
Composants principaux :
- Multi-Head Attention : Analyse les relations entre tous les tokens simultanément
- Feed-Forward Networks : Transformations non-linéaires
- Positional Encoding : Encodage de la position des mots (car traités en parallèle)
- Layer Normalization : Stabilisation de l'entraînement
Variantes majeures :
Architecture | Type | Utilisation | Exemples |
---|---|---|---|
Encoder-only | Bidirectionnel | Compréhension (classification, NER) | BERT, RoBERTa |
Decoder-only | Autoregressif | Génération de texte | GPT, LLaMA, Mistral |
Encoder-Decoder | Hybride | Traduction, résumé | T5, BART, mT5 |
Impact historique : Le paper "Attention is All You Need" (Vaswani et al., Google Brain, 2017) est le paper le plus cité en IA (100,000+ citations). Il a déclenché la révolution actuelle des LLM.
Applications au-delà du NLP :
- Vision Transformers (ViT) : Images (surpasse les CNN sur ImageNet)
- Audio : Whisper (transcription speech-to-text), MusicGen
- Multimodal : CLIP, GPT-4 Vision (texte + images)
- Protéines : AlphaFold 2 (prédiction de structure protéique)
Ressources :
9. Attention Mechanism (Mécanisme d'Attention)
Définition : Mécanisme fondamental permettant au modèle de se concentrer dynamiquement sur les parties les plus pertinentes de l'entrée lors du traitement, en calculant des scores d'importance entre tous les éléments. C'est le cœur des transformers.
Analogie simple : Quand vous lisez "La tour Eiffel, construite en 1889, est à Paris", pour répondre à "Où est la tour Eiffel ?", votre cerveau attentionne automatiquement sur "Paris". Le mécanisme d'attention fait la même chose mathématiquement.
Fonctionnement technique (simplifié) :
1. Query (Q) : "Qu'est-ce que je cherche ?" (le mot actuel)
2. Key (K) : "Qu'est-ce que je contiens ?" (chaque mot)
3. Value (V) : "Quelle information j'apporte ?" (contenu de chaque mot)
4. Score : Calcul de similarité Q·K pour déterminer l'importance de chaque mot
Types d'attention :
- Self-Attention : Chaque mot analyse sa relation avec tous les autres mots de la phrase ("Attention" dans "Attention is All You Need")
- Multi-Head Attention : Plusieurs mécanismes d'attention en parallèle, chacun apprenant différents types de relations (syntaxe, sémantique, références...). GPT-3 utilise 96 heads !
- Cross-Attention : Attention entre deux séquences différentes (ex: texte source ↔ traduction)
- Masked Attention : Empêche de regarder les mots futurs (utile pour génération autogressive)
Exemple visuel : Pour la phrase "The animal didn't cross the street because it was too tired", l'attention sur le mot "it" montre une forte activation vers "animal" (pas "street"), résolvant l'ambiguïté pronominale.
Avantages vs RNN :
- Parallélisation : Tous les tokens traités simultanément (vs séquentiel RNN)
- Longues dépendances : Pas de dégradation de signal sur longues distances
- Interprétabilité : Les scores d'attention peuvent être visualisés
Coût computationnel : L'attention est en O(n²) par rapport à la longueur de séquence, c'est pourquoi les LLM ont des limites de contexte (ex: 128K tokens pour GPT-4). Des variantes efficaces existent : Sparse Attention, Flash Attention, Linear Attention.
Ressource : Attention? Attention! (Lilian Weng)
10. Token
Définition : Unité atomique de texte traitée par un LLM. Ce n'est ni exactement un mot, ni un caractère, mais une sous-unité linguistique optimisée. Un token peut être un mot entier, une partie de mot (sous-mot), un caractère, un symbole, voire un espace.
Pourquoi des tokens plutôt que des mots ?
- Vocabulaire compact : 50K tokens vs millions de mots possibles
- Mots rares : "anticonstitutionnellement" découpé en sous-mots connus
- Multilingue : Même tokenizer pour 100+ langues
- Ponctuation & code : Gestion unifiée
Exemples de tokenization (GPT tokenizer) :
"Hello world"
→ ["Hello", " world"]
(2 tokens)
"Intelligence artificielle"
→ ["Intel", "ligence", " art", "ific", "ielle"]
(5 tokens)
"ChatGPT"
→ ["Chat", "G", "PT"]
(3 tokens)
"42"
→ ["42"]
(1 token)
Règle empirique : En anglais, 1 token ≈ 0.75 mots (4 tokens ≈ 3 mots). En français, 1 token ≈ 0.6 mots (plus de découpage car moins représenté dans l'entraînement).
Algorithmes de tokenization :
- BPE (Byte Pair Encoding) : Utilisé par GPT, fusionne itérativement les paires fréquentes
- WordPiece : Utilisé par BERT, variante de BPE
- SentencePiece : Utilisé par LLaMA, Mistral, indépendant de la langue
Impact sur les limites de contexte :
Modèle | Contexte max | Mots approx. (EN) | Équivalent |
---|---|---|---|
GPT-3.5 | 4K tokens | ~3K mots | 6 pages |
GPT-4 | 128K tokens | ~96K mots | ~200 pages |
Claude 3 | 200K tokens | ~150K mots | ~300 pages |
Gemini 1.5 Pro | 1M tokens | ~750K mots | ~1500 pages |
Coût : Les API LLM facturent au token. Ex: GPT-4 = $0.03/1K tokens input. Optimiser sa tokenization = réduire les coûts.
Outil pratique : OpenAI Tokenizer (visualiser le découpage)
11. Embedding (Plongement Lexical / Vectoriel)
Définition : Représentation numérique d'un mot, phrase, document ou tout élément (image, audio...) sous forme de vecteur dense dans un espace multi-dimensionnel (typiquement 384 à 4096 dimensions). C'est la transformation mathématique qui permet aux machines de "comprendre" le sens.
Principe fondamental : Des éléments sémantiquement similaires ont des embeddings géométriquement proches dans l'espace vectoriel. La distance entre vecteurs reflète la similarité de sens.
Exemple visuel (simplifié en 2D) :
"roi" [0.8, 0.9] proche de "reine" [0.75, 0.85] "chat" [0.2, 0.3] proche de "chien" [0.25, 0.35] "voiture" [-0.5, 0.1] éloigné de "roi" [0.8, 0.9]
Relation algébrique célèbre :
embedding("roi") - embedding("homme") + embedding("femme") ≈ embedding("reine")
Cette propriété mathématique montre que les embeddings capturent des relations sémantiques complexes.
Techniques d'embedding par époque :
Technique | Année | Dimensions | Portée | Usage actuel |
---|---|---|---|---|
Word2Vec | 2013 | 100-300 | Mot seul | Légacy, simple |
GloVe | 2014 | 50-300 | Mot seul | Légacy |
FastText | 2016 | 100-300 | Mot + sous-mots | Langues rares |
BERT embeddings | 2018 | 768-1024 | Contexte phrase | Classification |
OpenAI ada-002 | 2022 | 1536 | Texte long | RAG, recherche |
text-embedding-3-large | 2024 | 3072 | Texte + multilingue | Production actuelle |
Applications concrètes :
- Recherche sémantique : Google Search comprend "capital France" → "Paris" (pas juste keywords)
- Systèmes RAG : Retrouver documents pertinents par sens, pas par mots exacts
- Clustering : Regrouper automatiquement articles similaires
- Déduplication : Détecter contenus quasi-identiques même reformulés
- Recommandation : "Clients qui ont aimé X aimeront Y" (Netflix, Spotify)
- Détection d'anomalies : Textes anormalement éloignés = suspicion de fraude
Coût API (OpenAI) : text-embedding-3-large = $0.00013/1K tokens (très économique vs LLM)
Open-source populaires :
- Sentence-Transformers : Librairie Python référence (SBERT, MPNet)
- all-MiniLM-L6-v2 : 384 dim, rapide, qualité correcte (idéal prototypes)
- e5-large-v2 : 1024 dim, excellent rapport qualité/prix
Ressources :
12. Dimension (d'un embedding)
Définition : Nombre de valeurs numériques (coordonnées) composant un vecteur d'embedding. Chaque dimension capture un aspect différent du sens (syntaxe, sémantique, contexte, domaine...).
Exemples de dimensionnalités courantes :
- 384 dimensions : all-MiniLM-L6-v2 (rapide, léger, 80MB)
- 768 dimensions : BERT-base, MPNet-base (standard académique)
- 1536 dimensions : OpenAI text-embedding-ada-002 (production)
- 3072 dimensions : OpenAI text-embedding-3-large (state-of-the-art)
- 4096 dimensions : Voyage AI, Cohere (ultra-précis)
Trade-offs dimensionnalité :
Plus de dimensions (↑) :
- ✔️ Meilleure précision / nuance sémantique
- ✔️ Moins de collisions (vecteurs identiques pour textes différents)
- ❌ Coût stockage x2 (1536 dim = 6KB vs 768 dim = 3KB par vecteur)
- ❌ Calcul de similarité plus lent
- ❌ Nécessite plus de données d'entraînement
Moins de dimensions (↓) :
- ✔️ Rapide (recherche 10x plus rapide)
- ✔️ Économique (stockage, mémoire, coûts cloud)
- ❌ Perte de nuance sémantique
Impact sur stockage (1M vecteurs) :
- 384 dim : ~1.5 GB
- 768 dim : ~3 GB
- 1536 dim : ~6 GB
- 3072 dim : ~12 GB
Règle empirique : Utilisez 384-768 dim pour prototypes/MVPs, 1536+ dim pour production exigeante (RAG médical, juridique, finance).
Matryoshka Embeddings : Nouvelle approche (2024) permettant de tronquer dynamiquement les dimensions (ex: utiliser seulement les 512 premières dim d'un modèle 1536) avec perte minimale de qualité.
Paramètres et Contexte
13. Paramètre (d'un modèle)
Définition : Valeur numérique ajustable dans un réseau de neurones (poids des connexions, biais) qui est apprise automatiquement pendant l'entraînement. Plus un modèle a de paramètres, plus il peut capturer de patterns complexes (mais nécessite plus de données et calcul).
Échelle des modèles modernes :
Modèle | Paramètres | Taille disque | RAM GPU min | Usage |
---|---|---|---|---|
GPT-2 | 1.5B | ~6 GB | 8 GB | Éducatif |
LLaMA 2 7B | 7B | ~13 GB | 16 GB | Local, prototypes |
Mistral 7B | 7.3B | ~14 GB | 16 GB | Production légère |
LLaMA 2 70B | 70B | ~140 GB | 80 GB (2x A100) | Production avancée |
GPT-3 | 175B | ~350 GB | 320 GB (4x A100) | API seulement |
GPT-4 | ~1.7T (estimé) | ~3.5 TB | Cluster GPU | API seulement |
Règle empirique : En FP16 (half precision), 1 milliard de paramètres = ~2 GB de stockage. Avec quantization INT8, on divise par 2 (1B = ~1 GB).
Mythe à déconstruire : "Plus de paramètres = toujours meilleur" est FAUX. Mistral 7B surpasse LLaMA 2 13B grâce à une meilleure architecture et données d'entraînement. La qualité dépend de : paramètres + architecture + données + entraînement.
14. Context Window (Fenêtre de Contexte)
Définition : Quantité maximale de texte (mesurée en tokens) qu'un LLM peut "voir" et traiter simultanément en une seule fois. Incluant le prompt, l'historique de conversation ET la réponse générée. Une fois cette limite atteinte, le modèle "oublie" le début.
Évolution des contextes (2020 → 2024) :
2020 : GPT-3 = 2K tokens (~1500 mots) → 1 page
2022 : GPT-3.5 = 4K tokens → 3 pages
2023 : GPT-4 = 32K tokens → 25 pages, Claude 2 = 100K → 75 pages
2024 : Gemini 1.5 Pro = 1M tokens → 700 pages (roman entier !)
Comparaison modèles actuels :
Modèle | Contexte | Mots (approx) | Équivalent | Cas d'usage |
---|---|---|---|---|
GPT-3.5 Turbo | 16K | ~12K | 24 pages | Conversations courtes |
GPT-4 | 128K | ~96K | 192 pages | Analyse documents longs |
Claude 3 Opus | 200K | ~150K | 300 pages | Livres, rapports annuels |
Gemini 1.5 Pro | 1M | ~750K | 1500 pages | Codebases entières, corpus |
Limitation technique : L'attention est en O(n²) : doubler le contexte = quadrupler le temps de calcul. C'est pourquoi passer de 100K à 1M tokens est un exploit technique majeur (optimisations comme Flash Attention, Ring Attention).
Coût impacté : Plus de contexte = plus cher. GPT-4 avec 128K coûte 2x plus cher que 8K. Optimisez en ne passant que le contexte nécessaire.
Cas d'usage concrets :
- 16K : Chatbots, assistance code (quelques fichiers)
- 128K : Analyse contrats juridiques, rapports techniques
- 200K+ : Analyse codebases, livres entiers, audits complets
- 1M : Recherche académique (analyser 50 papers), due diligence M&A
Besoin d'Expertise en Intelligence Artificielle ?
Nos experts développent des solutions IA sur-mesure : RAG, bases vectorielles, embeddings personnalisés, LLM fine-tuning. Nous mettons également à disposition des formateurs spécialisés pour centres de formation et écoles d'ingénieurs.
3. Entraînement & Optimisation
15. Training (Entraînement)
Définition : Processus d'apprentissage où le modèle ajuste ses paramètres en minimisant une fonction de perte sur un jeu de données.
Phases : Pre-training (entraînement initial), fine-tuning (ajustement), continual learning.
Coût : Millions de dollars et des mois de calcul pour les grands modèles.
16. Fine-Tuning (Ajustement Fin)
Définition : Ré-entraînement d'un modèle pré-entraîné sur un jeu de données spécifique pour l'adapter à une tâche particulière.
Avantages : Moins coûteux que l'entraînement from scratch, performances supérieures.
Techniques : Full fine-tuning, LoRA, QLoRA, PEFT.
17. LoRA (Low-Rank Adaptation)
Définition : Technique de fine-tuning efficace qui ne modifie qu'une fraction des paramètres du modèle via des matrices de rang faible.
Avantage : Réduit drastiquement la mémoire et le temps de calcul nécessaires.
Usage : Fine-tuning de LLM sur GPU consumer, création de modèles spécialisés.
18. Prompt
Définition : Instruction textuelle donnée à un LLM pour lui indiquer la tâche à effectuer.
Types : Zero-shot (sans exemple), few-shot (avec exemples), chain-of-thought.
Prompt Engineering : Art d'optimiser les prompts pour obtenir les meilleurs résultats.
19. Prompt Engineering
Définition : Discipline consistant à concevoir des prompts optimaux pour maximiser la qualité des réponses d'un LLM.
Techniques : Role prompting, instruction following, format specification, examples provision.
Importance : Peut multiplier par 10 la qualité des résultats sans modifier le modèle.
20. Temperature
Définition : Paramètre contrôlant le degré de créativité/aléatoire des réponses générées par un LLM.
Valeurs :
- 0 : Déterministe, prévisible (pour des tâches précises)
- 0.7 : Équilibré (usage général)
- 1+ : Créatif, surprenant (création de contenu)
21. Inference (Inférence)
Définition : Phase où le modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données.
Métriques : Latence, throughput, tokens/seconde.
Optimisation : Quantization, pruning, distillation.
4. Univers Vectoriel & Recherche Sémantique
22. Vector Database (Base de Données Vectorielle)
Définition : Base de données spécialisée pour stocker et rechercher efficacement des embeddings (vecteurs).
Solutions populaires : Pinecone, Weaviate, Qdrant, Milvus, Chroma, pgvector.
Usage : Recherche sémantique, RAG, systèmes de recommandation.
Article détaillé : Bases vectorielles expliquées
23. Similarity Search (Recherche par Similarité)
Définition : Technique de recherche basée sur la proximité vectorielle plutôt que sur des mots-clés exacts.
Algorithmes : K-Nearest Neighbors (KNN), Approximate Nearest Neighbors (ANN).
Méthode : Calcul de distance (Euclidienne, cosine similarity, dot product).
24. Cosine Similarity (Similarité Cosinus)
Définition : Mesure de similarité entre deux vecteurs basée sur l'angle entre eux (de -1 à 1).
Formule : cos(θ) = (A · B) / (||A|| × ||B||)
Interprétation : 1 = identiques, 0 = orthogonaux, -1 = opposés.
Usage : Mesure standard pour comparer des embeddings.
25. Vector Index (Index Vectoriel)
Définition : Structure de données optimisant la recherche dans un espace vectoriel haute dimension.
Algorithmes : HNSW (Hierarchical Navigable Small World), IVF (Inverted File), PQ (Product Quantization).
Trade-off : Vitesse vs précision vs mémoire.
26. Chunking
Définition : Découpage de documents longs en morceaux plus petits (chunks) avant vectorisation.
Stratégies : Taille fixe, taille sémantique, par paragraphe, recursive splitting.
Paramètres : chunk_size (taille), chunk_overlap (chevauchement).
Impact : Crucial pour la qualité du RAG.
27. Semantic Search (Recherche Sémantique)
Définition : Recherche basée sur le sens et l'intention plutôt que sur les mots-clés exacts.
Technologie : Embeddings + bases vectorielles.
Exemple : Recherche "capital de la France" trouve "Paris" même sans le mot "Paris" dans le texte.
RAG & Retrieval
28. RAG (Retrieval-Augmented Generation)
Définition : Architecture hybride combinant recherche d'information (retrieval dans une base de connaissances) et génération de texte (LLM) pour produire des réponses factuelles, à jour et sourcées basées sur vos propres données. C'est LA technique dominante pour intégrer des LLM avec données privées/spécialisées.
Pipeline RAG détaillé (5 étapes) :
Phase 1 : Indexation (une fois)
- Ingestion : Charger documents (PDF, Word, web, DB...)
- Chunking : Découper en morceaux de 500-1000 tokens avec overlap 10-20%
- Embedding : Convertir chaque chunk en vecteur (OpenAI, SBERT...)
- Stockage : Insérer vecteurs + metadata dans base vectorielle
Phase 2 : Query (temps réel)
- Question : "Quelle est notre politique de remboursement ?"
- Embedding query : Vectoriser la question
- Recherche : Trouver top-k chunks similaires (k=3-10) via cosine similarity
- Prompt augmenté : Concaténer chunks + question dans prompt
- Génération LLM : GPT/Claude génère réponse depuis le contexte fourni
- Post-traitement : Ajouter citations, sources, confiance score
Avantages vs Fine-Tuning :
- ✔️ Données à jour : Ajoutez/modifiez documents instantanément (vs ré-entraînement complet)
- ✔️ Coût réduit : Indexation = quelques $/1M tokens vs fine-tuning = milliers de $
- ✔️ Sources traçables : Chaque réponse cite documents sources (conformité, confiance)
- ✔️ Multi-domaines : Même système pour données RH, juridique, technique...
- ✔️ Réduit hallucinations : LLM contraint par contexte factuel fourni
Cas d'usage production réels :
- Support client : Chatbot répond depuis documentation produit (Intercom, Zendesk)
- Recherche juridique : Analyse contrats, jurisprudence (gain 80% temps avocats)
- Knowledge base interne : "Slack intelligent" cherchant dans tous docs entreprise
- Analyse financière : Q&A sur rapports annuels, earnings calls
- Documentation code : GitHub Copilot recherche dans votre codebase
- E-commerce : Recherche produits par description naturelle
Architectures avancées :
- Naive RAG : Pipeline basique ci-dessus (MVP, prototypes)
- Advanced RAG : + reranking (Cohere), hybrid search (BM25 + vector), query expansion
- Agentic RAG : Agent décide dynamiquement quelles sources interroger, multi-hop reasoning
- GraphRAG : Knowledge graph + vecteurs pour relations complexes (Microsoft 2024)
Stack technique typique :
- LLM : GPT-4, Claude 3, Mistral
- Embeddings : OpenAI text-embedding-3, Sentence-Transformers
- Vector DB : Pinecone, Qdrant, Weaviate, pgvector
- Framework : LangChain, LlamaIndex, Haystack
- Ingestion : Unstructured, LlamaParse, PyPDF
Limitations & solutions :
- Chunking imparfait : Information coupée → Solution : overlap, chunking sémantique
- Top-k insuffisant : Info manquante → Solution : augmenter k, hybrid search
- Latence : 2-5s (vs 500ms LLM seul) → Solution : caching, embeddings précalculés
- Context overflow : Trop de chunks → Solution : reranking, summarization
Coût exemple (1M queries/mois) :
- Embeddings : ~$130 (text-embedding-3-large)
- Vector DB : $70-300 (selon provider)
- LLM calls : $3000-15000 (selon modèle GPT-3.5 vs GPT-4)
- Total : $3200-15500/mois (vs fine-tuning initial $50K+)
Ressources :
29. Retrieval (Récupération)
Définition : Phase du RAG où le système recherche les documents/passages les plus pertinents dans une base de connaissances.
Méthodes : Dense retrieval (embeddings), sparse retrieval (BM25), hybrid retrieval.
Métrique : Recall@k (pourcentage de documents pertinents retrouvés dans les k premiers résultats).
30. Hallucination
Définition : Phénomène où un LLM génère du contenu plausible mais factuellement incorrect ou inventé.
Causes : Manque de données d'entraînement, sur-confiance, prompt ambigu.
Solutions : RAG, fact-checking, température basse, instruction explicite.
5. Production & Déploiement
31. 🏭 MLOps (Machine Learning Operations)
Définition : Ensemble de pratiques pour déployer, monitorer et maintenir des modèles ML en production.
Composants : CI/CD pour ML, versioning de modèles, monitoring de performance, retraining automatique.
Outils : MLflow, Kubeflow, Weights & Biases, Neptune.ai.
32. Model Serving
Définition : Infrastructure permettant d'exposer un modèle ML via une API pour l'inférence en temps réel.
Solutions : TorchServe, TensorFlow Serving, NVIDIA Triton, FastAPI custom.
Métriques : Latence, throughput, coût par requête.
33. ⚖️ Quantization
Définition : Technique de compression réduisant la précision des poids d'un modèle (ex: FP32 → INT8) pour diminuer la taille et accélérer l'inférence.
Types : Post-training quantization, quantization-aware training.
Impact : 2-4x plus rapide, 75% de réduction de taille, perte de précision minimale.
34. 🎓 Distillation
Définition : Technique d'entraînement d'un modèle "élève" petit et rapide à imiter un modèle "professeur" large et performant.
Usage : Créer des modèles déployables sur mobile/edge tout en conservant la qualité.
Exemple : DistilBERT (66M param) imite BERT (110M param) avec 97% de performances.
35. Edge AI
Définition : Exécution de modèles IA directement sur des appareils locaux (smartphones, IoT) plutôt que dans le cloud.
Avantages : Latence réduite, confidentialité, fonctionnement offline.
Défis : Ressources limitées (CPU, RAM, batterie).
Éthique & Gouvernance
36. ⚖️ Bias (Biais Algorithmique)
Définition : Discrimination systématique dans les prédictions d'un modèle, souvent héritée des biais dans les données d'entraînement.
Types : Biais de genre, racial, socio-économique.
Solutions : Datasets diversifiés, fairness metrics, audits réguliers.
37. Explainability (Explicabilité)
Définition : Capacité à comprendre et expliquer comment un modèle arrive à ses décisions.
Techniques : SHAP, LIME, attention visualization.
Importance : Conformité réglementaire (RGPD), confiance utilisateur, debugging.
38. 🛡️ AI Safety (Sécurité de l'IA)
Définition : Ensemble de pratiques pour s'assurer qu'un système IA agit de manière sûre, alignée avec les intentions humaines.
Enjeux : Jailbreaking, prompt injection, moderation, red teaming.
Standards : OWASP Top 10 LLM, NIST AI Risk Management Framework.
39. Perplexity (Perplexité)
Définition : Métrique d'évaluation des modèles de langage mesurant la qualité des prédictions. Plus la perplexité est faible, meilleur est le modèle.
Usage : Évaluer et comparer différents LLMs, valider l'efficacité du fine-tuning.
40. Multimodal AI
Définition : Modèles capables de traiter et générer plusieurs types de données simultanément (texte, image, audio, vidéo).
Exemples : GPT-4V (vision), DALL-E 3, Whisper (audio), Claude 3 (multimodal).
41. Semantic Search (Recherche Sémantique)
Définition : Recherche basée sur le sens et l'intention plutôt que sur la correspondance exacte de mots-clés.
Technologie : Utilise les embeddings pour comprendre le contexte et trouver des résultats pertinents même sans mots identiques.
42. Context Window (Fenêtre de Contexte)
Définition : Nombre maximum de tokens qu'un LLM peut traiter simultanément en entrée et sortie.
Exemples : GPT-4 Turbo (128k tokens), Claude 3 (200k tokens), Gemini 1.5 Pro (1M tokens).
43. Checkpoint
Définition : Sauvegarde intermédiaire de l'état d'un modèle pendant l'entraînement, permettant de reprendre ou de revenir à un état antérieur.
Usage : Éviter de perdre des heures d'entraînement en cas de crash, comparer différentes versions du modèle.
44. Inference (Inférence)
Définition : Phase où un modèle entraîné est utilisé pour faire des prédictions sur de nouvelles données.
Différence avec Training : Training = apprentissage, Inference = utilisation en production.
45. Latency (Latence)
Définition : Temps de réponse d'un modèle IA entre la requête et le résultat.
Enjeu : Critique pour les applications temps réel (chatbots, recherche, recommandations). Objectif : <100ms.
46. Synthetic Data (Données Synthétiques)
Définition : Données générées artificiellement par des algorithmes plutôt que collectées du monde réel.
Avantages : Contourner le manque de données, éviter les problèmes de confidentialité, augmenter la diversité.
47. Few-Shot Learning
Définition : Capacité d'un modèle à apprendre une nouvelle tâche avec très peu d'exemples (souvent 1 à 10).
Usage : GPT-4 peut résoudre des tâches complexes avec seulement quelques exemples dans le prompt.
48. Zero-Shot Learning
Définition : Capacité d'un modèle à réaliser une tâche sans aucun exemple d'entraînement spécifique.
Exemple : Demander à GPT-4 de traduire en finnois sans lui donner d'exemples de traduction.
49. Tokenization (Tokenisation)
Définition : Processus de découpage du texte en unités (tokens) que le modèle peut traiter.
Exemple : "Intelligence" peut être découpé en ["Intel", "ligence"] ou rester un seul token selon le tokenizer.
50. Agentic AI (IA Agentique)
Définition : IA capable d'agir de manière autonome pour atteindre des objectifs, prendre des décisions et exécuter des actions complexes.
Exemples : AutoGPT, BabyAGI, agents qui planifient et exécutent des tâches multi-étapes.
Ressources Externes Essentielles
Documentation officielle et ressources académiques de référence :
Papers & Recherche :
Documentation Officielle :
Frameworks :
Bases Vectorielles :
FAQ - Questions Fréquentes
Quelle est la différence entre un token et un embedding ?
Un token est l'unité de base du texte pour un modèle (mot, sous-mot), tandis qu'un embedding est la représentation numérique vectorielle de ce token dans un espace multidimensionnel. Le token est l'input textuel, l'embedding est sa transformation mathématique.
Pour en savoir plus : Embeddings vs Tokens expliqués
Dois-je fine-tuner mon modèle ou utiliser du RAG ?
RAG est recommandé si :
- Vos données changent fréquemment
- Vous devez citer des sources
- Budget limité pour l'entraînement
Fine-tuning est préférable si :
- Vous voulez modifier le style/ton du modèle
- Tâche très spécifique nécessitant des capacités nouvelles
- Latence critique (pas de recherche vectorielle)
Souvent, une combinaison des deux est optimale.
Quelle base vectorielle choisir pour mon projet ?
Pinecone : Managed, facile, scalable automatiquement (mais coûteux)
Qdrant : Open-source, performant, bonne intégration Python
Weaviate : Multi-modal, GraphQL, bonne pour données hybrides
Milvus : Enterprise-grade, très scalable, Kubernetes-native
Chroma : Simple, embedded, parfait pour prototypes
Article détaillé : Comment choisir une base vectorielle
Comment éviter les hallucinations d'un LLM ?
Techniques principales :
- RAG : Fournir du contexte factuel depuis vos données
- Temperature basse : Réduire la créativité (0-0.3)
- Instructions explicites : "Réponds uniquement à partir des documents fournis"
- Fact-checking : Vérifier les claims critiques
- Citations : Forcer le modèle à citer ses sources
Combien coûte l'utilisation d'un LLM en production ?
Via API (GPT-4, Claude) :
- GPT-4 : $0.03/1K tokens input, $0.06/1K output
- GPT-3.5 Turbo : $0.001/1K tokens (20x moins cher)
- Claude 3 Opus : $0.015/1K input, $0.075/1K output
Self-hosted (LLaMA, Mistral) :
- Infrastructure GPU : $500-5000/mois selon le modèle
- Pas de coût par token
- Meilleur si >10M tokens/mois
Conclusion
Ce glossaire IA de 50 termes essentiels vous donne les fondations pour naviguer dans l'univers de l'intelligence artificielle moderne. De l'architecture des transformers aux subtilités des embeddings, en passant par les systèmes RAG et les bases vectorielles, vous disposez maintenant d'un vocabulaire solide.
L'IA évolue rapidement : de nouveaux termes apparaissent régulièrement. Nous maintenons ce glossaire à jour avec les dernières innovations. Marquez cette page comme référence pour vos projets.
💡 Prochaines Étapes
Maintenant que vous maîtrisez le vocabulaire, approfondissez vos connaissances avec nos guides experts :
- Qu'est-ce qu'un embedding ? - Comprendre en profondeur
- Bases vectorielles - Architecture et fonctionnement
- RAG expliqué - Guide d'implémentation