Cosine Similarity
iaDéfinition
Mesure de similarité entre deux vecteurs calculée via le cosinus de l'angle entre eux. Valeur entre -1 et 1. Standard pour comparer des embeddings en recherche sémantique.
Description
La similarité cosinus mesure la proximité sémantique entre deux vecteurs en calculant le cosinus de l'angle qui les sépare. Résultant en une valeur entre -1 (opposés) et 1 (identiques), elle est le standard de comparaison des embeddings en recherche sémantique et détection de similarités.
Fonctionnement
Le calcul cos(θ) = (A·B) / (|A|×|B|) normalise les vecteurs, rendant la mesure indépendante de leur magnitude. Cette propriété est cruciale pour la comparaison de textes de longueurs différentes ou d'images à résolutions variées encodées dans le même espace vectoriel.
Points clés
- Standard de facto pour la recherche de voisins approximatifs (ANN) dans les bases vectorielles (FAISS, Pinecone)
- Utilisée en cybersécurité pour détecter des variantes de malwares similaires par comparaison d'embeddings de code
- La distance euclidienne est préférable à la similarité cosinus quand la magnitude des vecteurs est informative
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis