Quand un visiteur tape "veste légère pour l'automne" dans votre barre de recherche, qui décide quels produits s'affichent - et dans quel ordre ? Derrière chaque réponse, il y a un algorithme. Pas besoin de savoir le coder pour comprendre comment il fonctionne. Mais comprendre sa logique change radicalement la façon dont on diagnostique un problème de recherche et dont on choisit son outil.
Il existe quatre grandes familles d'algorithmes. Tous les moteurs de recherche e-commerce modernes s'appuient sur une combinaison de ces approches - avec des équilibres différents selon les outils.
Les 4 grandes familles d'algorithmes de recherche
La recherche par mots-clés - BM25 / TF-IDF
C'est la mécanique de base de la recherche depuis les années 70. Le moteur compare les termes exacts tapés par le visiteur avec les termes présents dans vos fiches produits. BM25 (Best Match 25) est la version moderne de TF-IDF : il tient compte de la fréquence d'un mot dans un document, de sa rareté dans l'ensemble du catalogue, et de la longueur des descriptions.
Concrètement : si un client tape "chaussures running", le moteur remonte les produits dont les titres et descriptions contiennent exactement "chaussures" et "running" - en favorisant ceux où ces mots apparaissent souvent et dans des champs importants (titre > description).
La recherche sémantique - embeddings et espace vectoriel
Au lieu de comparer des mots, la recherche sémantique compare des sens. Chaque produit et chaque requête est converti en un vecteur numérique - une suite de nombres qui représente sa signification dans un espace à plusieurs centaines de dimensions. La recherche consiste ensuite à trouver les vecteurs les plus proches de la requête dans cet espace.
Ces vecteurs sont produits par des modèles de langage entraînés sur des milliards de textes. Ils "savent" que "parka" et "manteau d'hiver" sont proches, que "sneaker" et "basket" désignent la même chose, ou qu'une requête comme "quelque chose de chaud pour randonner" correspond à des doudounes et des vestes techniques.
La recherche hybride - le meilleur des deux
La recherche hybride combine BM25 et sémantique dans un score final unique. La requête est traitée en parallèle par les deux méthodes, et leurs scores sont fusionnés - généralement via une pondération ajustable (un paramètre souvent appelé alpha) qui détermine le poids relatif de chaque approche.
C'est le standard des moteurs modernes : Elasticsearch depuis la version 8.x, Google Vertex AI Search, Algolia Neural Search. L'hybride corrige les angles morts de chaque approche prise isolément : la précision de BM25 sur les codes produits + la compréhension sémantique sur le langage naturel.
Le ranking comportemental - l'IA qui apprend de vos clients
Ce quatrième type ne change pas quels produits sont retournés, mais dans quel ordre ils s'affichent. Le moteur observe les comportements réels de vos visiteurs - clics, ajouts au panier, conversions, temps passé sur une fiche - et ajuste automatiquement le classement pour mettre en avant les produits qui performent le mieux sur chaque type de requête.
Résultat : si vos clients qui cherchent "running débutant" cliquent et achètent massivement des chaussures de telle marque, elles remontent dans les résultats pour cette requête - sans que vous ayez rien configuré manuellement.
Tableau comparatif des algorithmes
| Algorithme | Points forts | Limites principales | Données requises |
|---|---|---|---|
| BM25 / TF-IDF | Précision sur les références exactes, rapide, transparent | Synonymes et langage naturel ignorés | Aucune |
| Sémantique | Comprend le sens, langue naturelle, reformulations | Moins fiable sur les codes et SKU exacts | Modèle d'embeddings (pré-entraîné) |
| Hybride | Précision + compréhension du sens, moins de zéro résultats | Paramétrage du poids BM25/sémantique délicat | Modèle d'embeddings |
| Ranking ML | S'adapte à votre audience, optimise la conversion en continu | Nécessite un historique de clics et conversions | Comportements utilisateurs (volume suffisant) |
Quelle combinaison choisir pour votre boutique ?
La réponse dépend de la taille de votre catalogue, de votre volume de trafic et de la richesse de vos données produits.
- Petit catalogue (< 1 000 produits) : un BM25 bien configuré avec des synonymes soigneusement maintenus peut suffire. L'investissement dans une couche sémantique n'est rentable qu'à partir d'un certain volume de requêtes ratées.
- Catalogue moyen à grand (1 000 à 50 000 produits) : la recherche hybride devient indispensable. La multiplicité des variantes, des marques et des formulations rend la configuration manuelle des synonymes insuffisante.
- Sites à fort trafic (> 50 000 visiteurs/mois) : le ranking comportemental apporte une amélioration continue sans intervention manuelle. La condition : avoir assez de données pour que l'algorithme converge vers un signal fiable.
- Dans tous les cas : les synonymes manuels restent la configuration la plus rentable à court terme. C'est peu coûteux à mettre en place, et l'impact sur le taux de zéro résultat est immédiat.
Voyez comment Vectail gère les algorithmes à votre place
Recherche hybride, ranking comportemental et synonymes configurables depuis un seul dashboard. Essai gratuit 14 jours, sans carte bancaire.
Démarrer gratuitementCe que Vectail fait concrètement avec ces algorithmes
Vectail s'appuie sur Google Vertex AI Search for Retail, qui intègre nativement une architecture hybride - BM25 et recherche sémantique combinés dans un seul score de pertinence. Pas besoin de choisir ni de calibrer l'équilibre entre les deux : c'est géré par l'infrastructure Google, entraînée sur des milliards de requêtes e-commerce.
- Ranking comportemental activé par défaut : l'auto-learning Vertex AI observe les comportements de vos visiteurs dès le premier jour et affine le classement en continu. Il s'initialise progressivement au fil du trafic.
- Expansion de requête automatique : le paramètre
queryExpansionSpec: AUTOpermet au moteur d'élargir automatiquement une requête à des termes sémantiquement proches quand les résultats exacts sont insuffisants. - Synonymes configurables depuis le dashboard : pour les cas où l'algorithme ne couvre pas un synonyme métier spécifique à votre secteur - "VTT" vs "vélo tout terrain", "parka" vs "manteau" - vous pouvez définir des groupes de synonymes qui s'appliquent en priorité sur la couche sémantique.
La combinaison de ces trois couches - hybride, comportemental, synonymes manuels - couvre l'essentiel des scénarios de recherche e-commerce sans nécessiter de configuration technique.