Mixture of Experts (MoE)
iaDéfinition
Architecture de réseau de neurones où seule une fraction des paramètres est activée pour chaque token, permettant de créer des modèles très grands (ex: Mixtral 8x7B) tout en gardant un coût d'inférence raisonnable.
Fonctionnement
Un MoE remplace les couches feed-forward du Transformer par N experts spécialisés. Un routeur (gate network) sélectionne les top-k experts (souvent k=2) pour chaque token. Seuls ces experts sont activés, réduisant le compute par token.
Avantages
- Modèle de 47B paramètres qui n'active que 13B par token (Mixtral)
- Meilleur ratio qualité/coût que les modèles denses équivalents
- Spécialisation naturelle des experts par domaine
Exemples
- Mixtral 8x7B/8x22B (Mistral)
- Switch Transformer (Google)
- DeepSeek-V2/V3
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis