Embeddings
iaDéfinition
Les embeddings sont des représentations vectorielles numériques continues de données (texte, images, code, audio) dans un espace latent multidimensionnel de dimension fixe (typiquement 768 à 4096 dimensions). La propriété fondamentale est la préservation de la sémantique : des entités conceptuellement proches ont des vecteurs proches mesurés par similarité cosinus ou produit scalaire. Les modèles d'embedding majeurs incluent text-embedding-3-large (OpenAI, 3072 dim), Nomic Embed, BGE et E5. En cybersécurité, les embeddings permettent la recherche sémantique sur des bases de threat intelligence (trouver des TTPs similaires même formulés différemment), la détection d'anomalies comportementales par clustering, la classification de malwares par similarité et la déduplication de vulnérabilités dans les pipelines de gestion des risques. Les embeddings sont le socle de toute architecture RAG.
En cybersécurité
Les embeddings sont au cœur des systèmes RAG et de la recherche sémantique. Ils permettent de trouver des documents pertinents au-delà de la simple correspondance de mots-clés.
Risques
- Inversion d'embeddings : il est possible de reconstruire partiellement le texte original à partir de son embedding
- Fuite de données : les embeddings de documents sensibles peuvent être extraits
- Empoisonnement : injection de documents malveillants dans la base vectorielle
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis