Architecture Transformer
iaDéfinition
Architecture de réseau de neurones basée sur le mécanisme d'auto-attention (self-attention), fondement de tous les LLM modernes comme GPT, Claude, LLaMA et Gemini.
Fonctionnement
Introduite en 2017 ("Attention Is All You Need"), l'architecture Transformer remplace les RNN par des couches d'attention parallélisables. Le mécanisme de self-attention calcule les relations entre tous les tokens d'une séquence simultanément.
Composants clés
- Multi-Head Attention : plusieurs têtes d'attention capturent différents types de relations
- Feed-Forward Networks : transformation non-linéaire entre les couches d'attention
- Positional Encoding : injection de l'information de position (sinusoïdal ou appris)
- Layer Normalization : stabilisation de l'entraînement
Variantes 2025
Mixture of Experts (MoE), State Space Models (Mamba), architectures hybrides attention-SSM.
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis