Multimodal AI
iaDéfinition
Systèmes IA traitant et générant plusieurs modalités de données (texte, image, audio, vidéo) au sein d'un même modèle unifié, comme GPT-4V, Gemini Ultra ou Claude 3.
Description
Le Multimodal AI désigne des systèmes IA capables de traiter et de générer plusieurs modalités de données (texte, image, audio, vidéo, code) au sein d'un même modèle unifié. GPT-4V, Gemini Ultra, Claude 3 Opus et LLaMA 3.2 Vision sont les représentants principaux.
Fonctionnement
Des encodeurs spécialisés (ViT pour les images, Whisper pour l'audio) produisent des représentations dans un espace vectoriel commun avec le texte via des couches de projection. Le LLM peut alors raisonner sur des combinaisons de modalités en cross-attention entre les différents types de tokens.
Points clés
- En cybersécurité, les LLM multimodaux analysent des captures d'écran d'interfaces malveillantes ou des diagrammes réseau
- Les attaques adversariales visuelles encodent des prompt injections invisibles à l'humain dans les images
- L'analyse de captures de paquets en multimodal (hex + texte) ouvre de nouvelles capacités pour les SOC
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis