Distillation de modèle
iaDéfinition
Technique de compression où un petit modèle (élève) apprend à imiter les sorties d'un grand modèle (enseignant), conservant l'essentiel des performances à moindre coût.
Description
La distillation de modèle est une technique de compression où un petit modèle (élève/student) apprend à imiter les sorties d'un grand modèle (enseignant/teacher). Le student reproduit les distributions de probabilité du teacher (soft labels) plutôt que les labels durs, capturant ainsi les nuances de la connaissance.
Fonctionnement
L'entraînement du student minimise la divergence KL entre ses probabilités de sortie et celles du teacher, pondérée par une température de distillation T. Des variantes incluent la distillation de features intermédiaires et la data-free distillation générant des données synthétiques via le teacher.
Points clés
- DistilBERT atteint 97% des performances de BERT avec 40% moins de paramètres et 60% plus rapide
- Rend possible le déploiement de LLM performants sur des endpoints ou systèmes air-gapped en cybersécurité
- Des modèles comme Phi-2 (Microsoft) démontrent que la distillation produit des petits modèles très performants
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis