Expert Cybersécurité & IAv9.0
Centres de ressources conformité
Besoin d'un accompagnement expert ?
Devis personnalisé sous 24h — audit, conformité, incident
Checklists Sécurité — Audit & Durcissement
Formats disponibles
📄 PDF 📊 Excel 🌐 Web

11 checklists professionnelles couvrant 2 200+ points de contrôle. Téléchargement gratuit, aucune inscription.

Chunking

ia

Définition

Le chunking est la stratégie de découpage de documents en segments (chunks) pour leur indexation dans un pipeline RAG. La granularité et la méthode de découpage impactent directement la qualité des réponses. Méthodes principales : fixed-size (découpage par nombre fixe de tokens, simple mais peu précis), sentence-level (découpage par phrase, sémantiquement cohérent), recursive character splitting (découpage hiérarchique par paragraphes puis phrases), semantic chunking (découpage basé sur la similarité sémantique entre phrases), et parent-child chunking (contexte large, récupération précise). Le chevauchement (overlap) entre chunks, typiquement 10-20%, évite de couper des informations importantes. Pour les documents structurés (PDF, HTML), le chunking respectueux de la structure améliore significativement la pertinence des résultats.

Fonctionnement technique

Le chunking est le processus de découpage de documents en segments de taille optimale pour l'indexation dans un pipeline RAG (Retrieval-Augmented Generation). La qualité du chunking impacte directement la pertinence de la recherche vectorielle et, par conséquent, la qualité des réponses du LLM. Un chunk trop petit perd le contexte, un chunk trop grand dilue l'information pertinente dans du bruit.

Les stratégies de chunking varient en sophistication. Le chunking par taille fixe découpe le texte tous les N caractères/tokens avec un chevauchement (overlap) pour préserver le contexte aux frontières. Le chunking récursif utilise une hiérarchie de séparateurs (paragraphes, phrases, mots) pour découper en respectant les structures naturelles du texte. Le chunking sémantique utilise des embeddings pour identifier les changements de sujet et placer les coupures aux transitions thématiques.

Le chunking par document structure exploite la structure du document (titres, sections, tableaux, listes) pour créer des chunks cohérents thématiquement. Le chunking parent-enfant (ParentDocumentRetriever) indexe de petits chunks pour la recherche précise mais retourne le chunk parent plus large au LLM pour fournir un contexte suffisant.

Cas d'usage

Dans un chatbot RAG d'entreprise, le choix de la stratégie de chunking détermine la qualité des réponses. Pour une base de documentation technique (Markdown, HTML), le chunking structurel par sections (split sur les headers h2/h3) produit des chunks cohérents. Pour des contrats ou documents juridiques, le chunking par clauses ou articles est plus pertinent.

Les tableaux et les données tabulaires nécessitent un traitement spécial : les chunker textuels classiques détruisent la structure tabulaire. Les approches modernes convertissent les tableaux en descriptions textuelles ou utilisent des embeddings multimodaux. De même, les PDF avec mise en page complexe (multi-colonnes, encadrés) nécessitent un parsing structurel préalable avant le chunking.

Outils et implémentation

LangChain fournit une bibliothèque complète de text splitters : RecursiveCharacterTextSplitter, MarkdownHeaderTextSplitter, HTMLHeaderTextSplitter, et SemanticChunker. LlamaIndex offre des SentenceSplitter, SemanticSplitterNodeParser et HierarchicalNodeParser pour le chunking parent-enfant.

Unstructured.io parse les documents complexes (PDF, Word, PowerPoint, HTML) en éléments structurés avant le chunking. Docling (IBM) excelle dans le parsing de PDF avec OCR et reconnaissance de tableaux. Chonkie est une bibliothèque Python dédiée au chunking avec des implémentations optimisées. Jina AI propose un service de segmentation sémantique via API.

Défense / Bonnes pratiques

Choisissez la taille de chunk en fonction de votre modèle d'embedding et de la nature de vos documents. Les modèles d'embedding actuels (text-embedding-3, voyage-3) sont optimisés pour des textes de 256 à 512 tokens. Un overlap de 10 à 20% entre les chunks préserve le contexte aux frontières sans doubler le volume d'index.

Évaluez quantitativement la qualité de votre chunking avec des métriques de retrieval : recall@k (proportion de documents pertinents retrouvés), MRR (Mean Reciprocal Rank) et NDCG. Testez plusieurs stratégies sur un jeu de questions-réponses de référence et comparez les résultats avant de choisir votre approche.

Enrichissez vos chunks avec des métadonnées contextuelles : titre du document, section parent, page, date. Ces métadonnées permettent un filtrage hybride (recherche vectorielle + filtres sur métadonnées) qui améliore significativement la pertinence. Implémentez un re-ranking après la recherche vectorielle initiale (Cohere Rerank, cross-encoder) pour affiner les résultats avant de les transmettre au LLM.

Articles associés

Voir nos articles détaillés sur ce sujet.

Besoin d'un expert sur ce sujet ?

Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.

Demander un devis

Un projet cybersécurité ?

Expert dispo · Réponse 24h

Devis