Recherche Sémantique (Semantic Search)
iaDéfinition
La recherche sémantique est une technique de recherche d'information qui utilise des embeddings vectoriels pour trouver des documents conceptuellement proches d'une requête, indépendamment de la correspondance lexicale exacte. Contrairement à la recherche par mots-clés (BM25, TF-IDF), la recherche sémantique encode la requête et les documents dans un espace vectoriel commun via des modèles bi-encodeurs (SBERT, E5, BGE), puis calcule la similarité cosinus pour classer les résultats. La recherche hybride (dense + sparse) combine les forces des deux approches, avec des outils comme Reciprocal Rank Fusion pour l'agrégation. Les pipelines de reranking (CrossEncoder, Cohere Rerank) affinent les résultats en N candidats. En cybersécurité, la recherche sémantique est transformatrice pour la threat intelligence : trouver des TTPs similaires à une technique d'attaque même reformulée différemment, détecter des variantes de malwares par comportement plutôt que par signature, et interconnecter des rapports de menaces hétérogènes au-delà de la simple concordance de mots-clés.
Description
La recherche sémantique utilise des embeddings vectoriels pour trouver des documents conceptuellement proches d'une requête, indépendamment de la correspondance lexicale exacte. Contrairement à la recherche par mots-clés (BM25), elle comprend la sémantique et les reformulations de la requête.
Fonctionnement
La requête et les documents sont encodés en vecteurs denses via des modèles bi-encodeurs (SBERT, E5, BGE). La similarité cosinus classe les résultats. La recherche hybride (dense + sparse) combine les avantages des deux approches, avec le Reciprocal Rank Fusion pour l'agrégation des scores.
Points clés
- Transformatrice pour la threat intelligence : trouver des TTPs similaires même reformulés différemment dans des rapports hétérogènes
- Détecte des variantes de malwares par comportement similaire plutôt que par signature textuelle exacte
- Le reranking (CrossEncoder, Cohere Rerank) affine les résultats initiaux en N candidats pour une précision maximale
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis