Quantization (IA)
iaDéfinition
Technique de compression de modèle réduisant la précision des poids (float32 → int8 ou int4) pour diminuer la mémoire requise et accélérer l'inférence avec perte minimale.
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis