Similarity Search
iaDéfinition
Recherche d'éléments similaires dans un espace vectoriel de haute dimension. Utilisée pour la recherche sémantique et RAG. Algorithmes : HNSW, IVF, PQ.
Description
La Similarity Search est la recherche d'éléments similaires dans un espace vectoriel de haute dimension. Elle est fondamentale pour la recherche sémantique, les systèmes de recommandation et le pipeline RAG. Les algorithmes ANN (Approximate Nearest Neighbors) permettent une recherche efficace sur des millions de vecteurs.
Fonctionnement
HNSW (Hierarchical Navigable Small World) construit un graphe multi-niveaux pour une recherche efficace O(log n). IVF (Inverted File Index) divise l'espace en clusters pour une recherche par partitionnement. FAISS (Facebook) implémente ces algorithmes optimisés CPU/GPU pour des milliards de vecteurs.
Points clés
- Le compromis recall/latence/coût mémoire guide le choix de l'algorithme ANN selon les contraintes de production
- pgvector étend PostgreSQL avec des capacités de similarity search pour les applications nécessitant une base relationnelle
- En cybersécurité, la similarity search identifie des malwares par similarité de code ou de comportement réseau
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis