Pré-entraînement (Pretraining)
iaDéfinition
Le pré-entraînement désigne la phase initiale d'entraînement d'un grand modèle de langage sur des corpus massifs non annotés (texte web, livres, code, Wikipedia) pour apprendre des représentations linguistiques générales et des connaissances encyclopédiques. Pour les LLM, l'objectif de pré-entraînement est typiquement la modélisation causale du langage (prédire le prochain token, GPT) ou le masquage de tokens (MLM, BERT). Le pré-entraînement de modèles comme GPT-4 ou LLaMA 3 70B nécessite des milliers de GPU pendant des semaines et représente la majorité du coût de développement. Cette phase établit les capacités de base du modèle : compréhension linguistique, raisonnement, connaissances factuelles. Le modèle pré-entraîné est ensuite affiné via instruction tuning et RLHF. En sécurité, les risques liés au pré-entraînement incluent la mémorisation involontaire de données sensibles (PII, secrets) présentes dans le corpus d'entraînement, extractibles via des attaques de membership inference ou de reconstruction.
Description
Le pré-entraînement est la phase initiale d'entraînement d'un LLM sur des corpus massifs non annotés (texte web, livres, code, Wikipedia) pour apprendre des représentations linguistiques générales. Cette phase établit les capacités de base du modèle avant l'instruction tuning et le RLHF.
Fonctionnement
L'objectif de pré-entraînement des LLM est la modélisation causale du langage (prédire le prochain token). Sur des milliards à trillions de tokens, le modèle développe des capacités émergentes : raisonnement, traduction, génération de code. Cette phase représente 90%+ du coût de développement d'un LLM.
Points clés
- La mémorisation involontaire de données sensibles (PII, secrets) dans le corpus est extractible par membership inference attacks
- La qualité et la diversité du corpus déterminent plus les capacités du modèle que la seule taille en paramètres
- La loi de Chinchilla établit le ratio optimal tokens/paramètres pour un budget de calcul donné
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis