Mixture of Experts (MoE)
iaDéfinition
L'architecture Mixture of Experts (MoE) est une approche de mise à l'échelle des réseaux de neurones où le modèle est divisé en nombreux sous-réseaux spécialisés (experts), dont seule une fraction est activée pour chaque token via un réseau de routage (gating network). Cette activation sparse permet de créer des modèles aux capacités d'un modèle dense très large tout en maintenant un coût d'inférence comparable à un modèle bien plus petit. Mixtral 8x7B (8 experts, 2 activés par token) démontre des performances surpassant LLaMA 2 70B avec un coût d'inférence proche de LLaMA 7B. GPT-4, Gemini 1.5 et Grok-1 utilisent des variantes MoE. Les défis incluent le load balancing entre experts (eviter l'effondrement vers un seul expert), la latence réseau en déploiement distribué, et la complexité accrue de l'inférence. En termes de sécurité, le routage MoE peut être exploité pour des attaques d'extraction de modèle ciblant des experts spécialisés.
Fonctionnement
Un MoE remplace les couches feed-forward du Transformer par N experts spécialisés. Un routeur (gate network) sélectionne les top-k experts (souvent k=2) pour chaque token. Seuls ces experts sont activés, réduisant le compute par token.
Avantages
- Modèle de 47B paramètres qui n'active que 13B par token (Mixtral)
- Meilleur ratio qualité/coût que les modèles denses équivalents
- Spécialisation naturelle des experts par domaine
Exemples
- Mixtral 8x7B/8x22B (Mistral)
- Switch Transformer (Google)
- DeepSeek-V2/V3
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis