Flash Attention
iaDéfinition
Algorithme d'attention optimisé pour GPU réduisant la complexité mémoire de O(n²) à O(n) via tiling et recomputation, accélérant l'entraînement et l'inférence des transformers.
Description
Flash Attention est un algorithme d'attention optimisé pour GPU qui réduit la complexité mémoire de O(n²) à O(n) via des techniques de tiling et recomputation sur la SRAM. Il accélère significativement l'entraînement et l'inférence des Transformers pour les longues séquences.
Fonctionnement
Plutôt que de matérialiser la matrice d'attention complète en HBM (mémoire GPU lente), Flash Attention divise la matrice en blocs traités séquentiellement en SRAM (mémoire GPU rapide). Flash Attention 2 et 3 améliorent le parallélisme sur les architectures Hopper et Ampere.
Points clés
- Accélère l'entraînement de 2 à 4x et réduit l'empreinte mémoire, rendant les contextes longs feasibles
- Intégré nativement dans Transformers (Hugging Face), vLLM et la plupart des frameworks d'inférence modernes
- Flash Attention 3 tire parti des FP8 et du parallélisme des SM des GPU NVIDIA H100 pour maximiser les performances
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis