Quand un visiteur tape "veste légère pour l'automne" dans votre barre de recherche, qui décide quels produits s'affichent - et dans quel ordre ? Derrière chaque réponse, il y a un algorithme. Pas besoin de savoir le coder pour comprendre comment il fonctionne. Mais comprendre sa logique change radicalement la façon dont on diagnostique un problème de recherche et dont on choisit son outil.

Il existe quatre grandes familles d'algorithmes. Tous les moteurs de recherche e-commerce modernes s'appuient sur une combinaison de ces approches - avec des équilibres différents selon les outils.

Pourquoi c'est important pour vous : l'algorithme de votre moteur de recherche détermine directement votre taux de zéro résultat, la pertinence des réponses sur des requêtes en langage naturel, et la capacité de votre moteur à s'améliorer dans le temps. Choisir le bon type d'algorithme - ou diagnostiquer les limites de celui que vous utilisez - est une décision business, pas seulement technique.

Les 4 grandes familles d'algorithmes de recherche

1

La recherche par mots-clés - BM25 / TF-IDF

C'est la mécanique de base de la recherche depuis les années 70. Le moteur compare les termes exacts tapés par le visiteur avec les termes présents dans vos fiches produits. BM25 (Best Match 25) est la version moderne de TF-IDF : il tient compte de la fréquence d'un mot dans un document, de sa rareté dans l'ensemble du catalogue, et de la longueur des descriptions.

Concrètement : si un client tape "chaussures running", le moteur remonte les produits dont les titres et descriptions contiennent exactement "chaussures" et "running" - en favorisant ceux où ces mots apparaissent souvent et dans des champs importants (titre > description).

Rapide Transparent Précis sur les références exactes Synonymes invisibles Zéro résultat sur le langage naturel
Exemple concret "basket running" ne remonte pas les "chaussures de sport Nike" si le mot "basket" n'est pas dans la fiche produit. "Pantalon imperméable" ne trouve pas les "softshell". Sans synonymes configurés manuellement, chaque requête alternative est un taux de zéro résultat qui augmente.
2

La recherche sémantique - embeddings et espace vectoriel

Au lieu de comparer des mots, la recherche sémantique compare des sens. Chaque produit et chaque requête est converti en un vecteur numérique - une suite de nombres qui représente sa signification dans un espace à plusieurs centaines de dimensions. La recherche consiste ensuite à trouver les vecteurs les plus proches de la requête dans cet espace.

Ces vecteurs sont produits par des modèles de langage entraînés sur des milliards de textes. Ils "savent" que "parka" et "manteau d'hiver" sont proches, que "sneaker" et "basket" désignent la même chose, ou qu'une requête comme "quelque chose de chaud pour randonner" correspond à des doudounes et des vestes techniques.

Comprend les synonymes implicites Langue naturelle Tolère les fautes et les reformulations Moins précis sur les références exactes Indexation plus lente
Exemple concret "quelque chose de chaud pour l'hiver" remonte des doudounes, des plaids, des bonnets - même si ces mots ne figurent pas dans la requête. En revanche, "ref XYZ-4521" peut donner un résultat moins fiable qu'avec BM25 pur, qui maîtrise mieux les correspondances exactes.
3

La recherche hybride - le meilleur des deux

La recherche hybride combine BM25 et sémantique dans un score final unique. La requête est traitée en parallèle par les deux méthodes, et leurs scores sont fusionnés - généralement via une pondération ajustable (un paramètre souvent appelé alpha) qui détermine le poids relatif de chaque approche.

C'est le standard des moteurs modernes : Elasticsearch depuis la version 8.x, Google Vertex AI Search, Algolia Neural Search. L'hybride corrige les angles morts de chaque approche prise isolément : la précision de BM25 sur les codes produits + la compréhension sémantique sur le langage naturel.

Précision sur les références Compréhension du sens Moins de zéro résultats Paramétrage plus complexe Infrastructure plus lourde
Exemple concret "Nike air max 90 blanche" : BM25 retrouve la référence exacte avec précision. "Chaussure pour courir en forêt" : le sémantique remonte les chaussures trail même si ce mot n'est pas tapé. L'hybride gère les deux dans le même moteur.
4

Le ranking comportemental - l'IA qui apprend de vos clients

Ce quatrième type ne change pas quels produits sont retournés, mais dans quel ordre ils s'affichent. Le moteur observe les comportements réels de vos visiteurs - clics, ajouts au panier, conversions, temps passé sur une fiche - et ajuste automatiquement le classement pour mettre en avant les produits qui performent le mieux sur chaque type de requête.

Résultat : si vos clients qui cherchent "running débutant" cliquent et achètent massivement des chaussures de telle marque, elles remontent dans les résultats pour cette requête - sans que vous ayez rien configuré manuellement.

S'adapte automatiquement Optimise la conversion Zero configuration manuelle Inefficace au lancement (cold start) Nécessite un volume de données suffisant
Point d'attention Le ranking comportemental est puissant, mais il amplifie les tendances existantes. Un produit peu visible au départ a du mal à émerger. Des actions de searchandising (boosting manuel) restent nécessaires pour les nouveaux arrivages ou les promotions.

Tableau comparatif des algorithmes

Algorithme Points forts Limites principales Données requises
BM25 / TF-IDF Précision sur les références exactes, rapide, transparent Synonymes et langage naturel ignorés Aucune
Sémantique Comprend le sens, langue naturelle, reformulations Moins fiable sur les codes et SKU exacts Modèle d'embeddings (pré-entraîné)
Hybride Précision + compréhension du sens, moins de zéro résultats Paramétrage du poids BM25/sémantique délicat Modèle d'embeddings
Ranking ML S'adapte à votre audience, optimise la conversion en continu Nécessite un historique de clics et conversions Comportements utilisateurs (volume suffisant)

Quelle combinaison choisir pour votre boutique ?

La réponse dépend de la taille de votre catalogue, de votre volume de trafic et de la richesse de vos données produits.

  • Petit catalogue (< 1 000 produits) : un BM25 bien configuré avec des synonymes soigneusement maintenus peut suffire. L'investissement dans une couche sémantique n'est rentable qu'à partir d'un certain volume de requêtes ratées.
  • Catalogue moyen à grand (1 000 à 50 000 produits) : la recherche hybride devient indispensable. La multiplicité des variantes, des marques et des formulations rend la configuration manuelle des synonymes insuffisante.
  • Sites à fort trafic (> 50 000 visiteurs/mois) : le ranking comportemental apporte une amélioration continue sans intervention manuelle. La condition : avoir assez de données pour que l'algorithme converge vers un signal fiable.
  • Dans tous les cas : les synonymes manuels restent la configuration la plus rentable à court terme. C'est peu coûteux à mettre en place, et l'impact sur le taux de zéro résultat est immédiat.

Voyez comment Vectail gère les algorithmes à votre place

Recherche hybride, ranking comportemental et synonymes configurables depuis un seul dashboard. Essai gratuit 14 jours, sans carte bancaire.

Démarrer gratuitement

Ce que Vectail fait concrètement avec ces algorithmes

Vectail s'appuie sur Google Vertex AI Search for Retail, qui intègre nativement une architecture hybride - BM25 et recherche sémantique combinés dans un seul score de pertinence. Pas besoin de choisir ni de calibrer l'équilibre entre les deux : c'est géré par l'infrastructure Google, entraînée sur des milliards de requêtes e-commerce.

  • Ranking comportemental activé par défaut : l'auto-learning Vertex AI observe les comportements de vos visiteurs dès le premier jour et affine le classement en continu. Il s'initialise progressivement au fil du trafic.
  • Expansion de requête automatique : le paramètre queryExpansionSpec: AUTO permet au moteur d'élargir automatiquement une requête à des termes sémantiquement proches quand les résultats exacts sont insuffisants.
  • Synonymes configurables depuis le dashboard : pour les cas où l'algorithme ne couvre pas un synonyme métier spécifique à votre secteur - "VTT" vs "vélo tout terrain", "parka" vs "manteau" - vous pouvez définir des groupes de synonymes qui s'appliquent en priorité sur la couche sémantique.

La combinaison de ces trois couches - hybride, comportemental, synonymes manuels - couvre l'essentiel des scénarios de recherche e-commerce sans nécessiter de configuration technique.