KV-Cache
iaDéfinition
Optimisation d'inférence LLM stockant les vecteurs clé-valeur des tokens déjà traités pour éviter de les recalculer, réduisant significativement la latence pour les longues conversations.
Description
Le KV-Cache (Key-Value Cache) est une optimisation d'inférence LLM qui stocke les vecteurs clé-valeur calculés lors de l'attention pour les tokens déjà traités. Cela évite de les recalculer à chaque nouveau token généré, réduisant significativement la latence pour les longues conversations.
Fonctionnement
Lors de l'inférence autorégressive, chaque nouveau token peut utiliser les KV déjà calculés pour tous les tokens précédents. Le cache est stocké en mémoire GPU (VRAM) et représente un compromis : réduction de latence au prix d'une consommation mémoire proportionnelle à la longueur du contexte.
Points clés
- Le KV-Cache peut représenter 30-70% de la VRAM requise pour les longues conversations avec des contextes étendus
- PagedAttention (vLLM) gère le KV-Cache en pages virtuelles pour maximiser l'utilisation mémoire en serving
- Le prompt caching (Anthropic, OpenAI) étend ce principe pour réutiliser le KV-Cache entre requêtes sur un même système prompt
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis