Chunking
iaDéfinition
Stratégie de découpage de documents en segments pour l'indexation dans un pipeline RAG. Méthodes : fixed-size, semantic, recursive, sentence-level.
Fonctionnement technique
Le chunking est le processus de découpage de documents en segments de taille optimale pour l'indexation dans un pipeline RAG (Retrieval-Augmented Generation). La qualité du chunking impacte directement la pertinence de la recherche vectorielle et, par conséquent, la qualité des réponses du LLM. Un chunk trop petit perd le contexte, un chunk trop grand dilue l'information pertinente dans du bruit.
Les stratégies de chunking varient en sophistication. Le chunking par taille fixe découpe le texte tous les N caractères/tokens avec un chevauchement (overlap) pour préserver le contexte aux frontières. Le chunking récursif utilise une hiérarchie de séparateurs (paragraphes, phrases, mots) pour découper en respectant les structures naturelles du texte. Le chunking sémantique utilise des embeddings pour identifier les changements de sujet et placer les coupures aux transitions thématiques.
Le chunking par document structure exploite la structure du document (titres, sections, tableaux, listes) pour créer des chunks cohérents thématiquement. Le chunking parent-enfant (ParentDocumentRetriever) indexe de petits chunks pour la recherche précise mais retourne le chunk parent plus large au LLM pour fournir un contexte suffisant.
Cas d'usage
Dans un chatbot RAG d'entreprise, le choix de la stratégie de chunking détermine la qualité des réponses. Pour une base de documentation technique (Markdown, HTML), le chunking structurel par sections (split sur les headers h2/h3) produit des chunks cohérents. Pour des contrats ou documents juridiques, le chunking par clauses ou articles est plus pertinent.
Les tableaux et les données tabulaires nécessitent un traitement spécial : les chunker textuels classiques détruisent la structure tabulaire. Les approches modernes convertissent les tableaux en descriptions textuelles ou utilisent des embeddings multimodaux. De même, les PDF avec mise en page complexe (multi-colonnes, encadrés) nécessitent un parsing structurel préalable avant le chunking.
Outils et implémentation
LangChain fournit une bibliothèque complète de text splitters : RecursiveCharacterTextSplitter, MarkdownHeaderTextSplitter, HTMLHeaderTextSplitter, et SemanticChunker. LlamaIndex offre des SentenceSplitter, SemanticSplitterNodeParser et HierarchicalNodeParser pour le chunking parent-enfant.
Unstructured.io parse les documents complexes (PDF, Word, PowerPoint, HTML) en éléments structurés avant le chunking. Docling (IBM) excelle dans le parsing de PDF avec OCR et reconnaissance de tableaux. Chonkie est une bibliothèque Python dédiée au chunking avec des implémentations optimisées. Jina AI propose un service de segmentation sémantique via API.
Défense / Bonnes pratiques
Choisissez la taille de chunk en fonction de votre modèle d'embedding et de la nature de vos documents. Les modèles d'embedding actuels (text-embedding-3, voyage-3) sont optimisés pour des textes de 256 à 512 tokens. Un overlap de 10 à 20% entre les chunks préserve le contexte aux frontières sans doubler le volume d'index.
Évaluez quantitativement la qualité de votre chunking avec des métriques de retrieval : recall@k (proportion de documents pertinents retrouvés), MRR (Mean Reciprocal Rank) et NDCG. Testez plusieurs stratégies sur un jeu de questions-réponses de référence et comparez les résultats avant de choisir votre approche.
Enrichissez vos chunks avec des métadonnées contextuelles : titre du document, section parent, page, date. Ces métadonnées permettent un filtrage hybride (recherche vectorielle + filtres sur métadonnées) qui améliore significativement la pertinence. Implémentez un re-ranking après la recherche vectorielle initiale (Cohere Rerank, cross-encoder) pour affiner les résultats avant de les transmettre au LLM.
Articles associés
Voir nos articles détaillés sur ce sujet.
Articles liés
Optimiser le Chunking de
Guide complet pour optimiser le découpage de documents pour les systèmes RAG : stratégies, paramètres, overlapping, et métriques d
10 Erreurs Courantes dans
Découvrez les erreurs les plus fréquentes dans le chunking de documents pour le RAG et comment les éviter. Exemples concrets et solutions éprouvées.
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis