Expert Cybersécurité & IAv9.0
Besoin d'un accompagnement expert ?
Devis personnalisé sous 24h — audit, conformité, incident
Checklists Sécurité — Audit & Durcissement
Formats disponibles
📄 PDF 📊 Excel 🌐 Web

11 checklists professionnelles couvrant 2 200+ points de contrôle. Téléchargement gratuit, aucune inscription.

Context Window (Fenêtre de contexte)

ia

Définition

La context window (fenêtre de contexte) désigne la quantité maximale de tokens qu'un LLM peut traiter simultanément en entrée et sortie lors d'une inférence. Elle constitue la "mémoire de travail" du modèle : tout ce qui dépasse cette limite est ignoré. Les tailles actuelles vont de 8 192 tokens (GPT-3.5) à 1 million de tokens (Gemini 1.5 Pro) et 200 000 tokens (Claude 3.5). Une context window large permet le traitement de documents complets, de longues conversations et des tâches many-shot. Le phénomène "lost in the middle" révèle que les LLM ont tendance à oublier les informations placées au milieu d'un contexte très long. En cybersécurité, la taille de la context window détermine la capacité à analyser des logs volumineux, du code source complet ou des rapports d'incident entiers en une seule requête, impactant directement l'efficacité des assistants SOC.

Description

La context window est la quantité maximale de tokens qu'un LLM peut traiter simultanément en entrée et sortie lors d'une inférence. Elle constitue la mémoire de travail du modèle : tout ce qui dépasse cette limite est ignoré. Les tailles actuelles vont de 8K tokens à 1M tokens (Gemini 1.5 Pro).

Fonctionnement

Le modèle traite l'ensemble de la context window en une seule passe d'attention. Le phénomène "lost in the middle" révèle que les LLM accordent moins d'attention aux informations placées au milieu d'un très long contexte. Des architectures comme Longformer et Mamba atténuent ce problème.

Points clés

  • La taille de la context window détermine la capacité à analyser des logs volumineux ou du code source complet en SOC
  • Les contextes très longs augmentent la consommation de mémoire GPU quadratiquement selon l'attention standard
  • Flash Attention et Ring Attention permettent de traiter des contextes longs plus efficacement sur des GPU modernes

Besoin d'un expert sur ce sujet ?

Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.

Demander un devis

Un projet cybersécurité ?

Expert dispo · Réponse 24h

Devis