Architecture Transformer
iaDéfinition
L'architecture Transformer, introduite dans le papier fondateur "Attention Is All You Need" (Vaswani et al., 2017), est le fondement de tous les LLM modernes. Elle repose exclusivement sur le mécanisme de self-attention qui permet à chaque token d'une séquence de pondérer l'importance de tous les autres tokens en parallèle, éliminant la dépendance aux RNN séquentiels. Les composants clés sont : l'encodeur multi-tête (Multi-Head Attention), les couches Feed-Forward, la normalisation par couches (Layer Norm) et l'encodage positionnel. Les modèles dérivés incluent BERT (encodeur seul), GPT (décodeur seul) et T5 (encodeur-décodeur). En sécurité, comprendre l'architecture Transformer est essentiel pour analyser les vecteurs d'attaque spécifiques : attention manipulation, extraction de poids via model stealing, et identification des failles dans les couches de sortie.
Fonctionnement
Introduite en 2017 ("Attention Is All You Need"), l'architecture Transformer remplace les RNN par des couches d'attention parallélisables. Le mécanisme de self-attention calcule les relations entre tous les tokens d'une séquence simultanément.
Composants clés
- Multi-Head Attention : plusieurs têtes d'attention capturent différents types de relations
- Feed-Forward Networks : transformation non-linéaire entre les couches d'attention
- Positional Encoding : injection de l'information de position (sinusoïdal ou appris)
- Layer Normalization : stabilisation de l'entraînement
Variantes 2025
Mixture of Experts (MoE), State Space Models (Mamba), architectures hybrides attention-SSM.
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis