Inférence LLM
iaDéfinition
L'inférence LLM désigne le processus par lequel un modèle de langage entraîné génère une prédiction ou une réponse à partir d'une entrée (prompt), en opposition à la phase d'entraînement. Lors de l'inférence, le modèle génère des tokens de manière autorégressive : chaque token est prédit en fonction de tous les tokens précédents, puis ajouté au contexte pour prédire le suivant. Les paramètres clés sont la température (entropie de la distribution de probabilité), top-p (nucleus sampling) et top-k. Les optimisations d'inférence incluent le KV Cache (mise en cache des vecteurs Key/Value pour éviter les recalculs), le batching dynamique, la quantification (INT8/INT4/FP8) et le Speculative Decoding. Les frameworks d'inférence dédiés sont vLLM, TGI (Text Generation Inference), llama.cpp et TensorRT-LLM. En production, le coût d'inférence (latence, tokens/seconde, coût GPU) est souvent la contrainte principale pour le déploiement d'applications IA à grande échelle.
Description
L'inférence LLM désigne le processus par lequel un modèle génère une prédiction ou réponse à partir d'un prompt. Lors de l'inférence, le modèle génère des tokens de manière autorégressive : chaque token est prédit en fonction de tous les tokens précédents dans le contexte courant.
Fonctionnement
Les paramètres clés de l'inférence incluent la température, top-p et top-k (sampling), ainsi que les optimisations : KV Cache (réutilisation des calculs précédents), batching dynamique, quantization et Speculative Decoding. Des frameworks dédiés (vLLM, TGI, llama.cpp) maximisent les throughputs.
Points clés
- Le coût d'inférence (latence, tokens/seconde, GPU) est souvent la contrainte principale pour les déploiements production
- Le KV Cache réduit la latence de génération en évitant de recalculer les vecteurs clé-valeur des tokens précédents
- vLLM avec PagedAttention optimise l'utilisation mémoire pour servir de nombreuses requêtes concurrentes efficacement
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis