Quantization LLM
iaDéfinition
La quantization est une technique d'optimisation qui réduit la précision numérique des poids d'un modèle (de FP32 ou BF16 vers INT8, INT4 ou FP8) pour diminuer l'empreinte mémoire et accélérer l'inférence avec une dégradation minimale des performances. Un modèle LLaMA 3 70B requiert 140 Go en BF16 mais seulement ~35 Go en INT4, permettant son exécution sur un poste de travail haut de gamme. Les méthodes principales sont : GPTQ (quantization post-entraînement basée sur les Hessians), AWQ (Activation-aware Weight Quantization), GGUF (format optimisé pour llama.cpp, CPU et Apple Silicon), et la quantization en INT8 native (bitsandbytes). La quantization dynamique (à l'inférence) diffère de la quantization statique (au moment de la préparation). En cybersécurité, la quantization rend possible le déploiement de LLM performants sur des infrastructures air-gapped ou des équipements de terrain, garantissant la souveraineté des données et évitant la transmission d'informations sensibles à des API cloud tierces.
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis