Comment fonctionne un moteur de recherche ?

Qu’est-ce qu’un moteur de recherche ?

Définition d’un moteur de recherche

Un moteur de recherche Web est un logiciel conçu pour rechercher des informations sur le World Wide Web. Les résultats de la recherche sont généralement présentés dans une ligne de résultats souvent appelés pages de résultats du moteur de recherche (SERPs). Les informations peuvent être un mélange de pages Web, d’images et d’autres types de fichiers.

Certains moteurs de recherche extraient également des données disponibles dans des bases de données ou des répertoires ouverts. Contrairement aux répertoires Web, qui sont gérés uniquement par des éditeurs humains, les moteurs de recherche conservent également des informations en temps réel en exécutant un algorithme sur un robot d’indexation Web.

Le contenu Internet qui ne peut pas être recherché par un moteur de recherche Web est généralement décrit comme le web profond (deep web)

Origine des moteurs de recherche

A l’origine, l’indexation des contenus web était manuelle

Les moteurs de recherche Internet sont eux-mêmes antérieurs aux débuts du Web en décembre 1990. La recherche de l’utilisateur Who remonte à 1982 et la recherche multi-utilisateurs de Knowbot Information Service a été mise en œuvre pour la première fois en 1989. Le premier moteur de recherche bien documenté qui explorait les fichiers de contenu, à savoir les fichiers FTP, était Archie, qui a fait ses débuts le 10 septembre 1990.

Avant septembre 1993, le World Wide Web était entièrement indexé à la main.

Archie : premier véritable moteur de recherche

Le premier outil utilisé pour rechercher du contenu (par opposition aux utilisateurs) sur Internet était Archie. Le nom signifie « archive » sans le « v ». Le programme a téléchargé les listes de répertoires de tous les fichiers situés sur des sites FTP publics (File Transfer Protocol), créant une base de données consultable de noms de fichiers. Cependant, le moteur de recherche Archie n’a pas indexé le contenu de ces sites, car la quantité de données était si limitée qu’il pouvait être facilement recherché manuellement.

À l’été 1993, il n’existait aucun moteur de recherche pour le Web, mais de nombreux catalogues spécialisés étaient conservés à la main.

 Page d′accueil du moteur de recherche Archie

Page d′accueil du moteur de recherche Archie

Wandex : premier robot d’indexation web

En juin 1993, Matthew Gray, alors au MIT, a produit ce qui était probablement le premier robot Web, le World Wide Web Wanderer, et l’a utilisé pour générer un index appelé «Wandex». L’objectif du Wanderer était de mesurer la taille du World Wide Web, ce qu’il a fait jusqu’à la fin de 1995.

Le deuxième moteur de recherche du web, Aliweb, est apparu en novembre 1993.

JumpStation, un moteur de recherche complet : exploration, indexation et recherche

JumpStation (créé en décembre 1993 par Jonathon Fletcher) utilisait un robot web pour trouver des pages web et construire son index, et utilisait un formulaire web comme interface avec son programme de requêtes. Il s’agissait donc du premier outil de découverte de ressources WWW combinant les trois caractéristiques essentielles d’un moteur de recherche web : exploration, indexation et recherche. En raison des ressources limitées disponibles sur la plate-forme, l’indexation et donc la recherche se limitaient aux titres et en-têtes trouvés dans les pages Web rencontrées par le robot.

WebCrawler : un des premiers moteurs de recherche « tout texte »

WebCrawler est l’un des premiers moteurs de recherche «tout texte». Il a été créé en 1994. Contrairement à ses prédécesseurs, il permettait aux utilisateurs de rechercher n’importe quel mot sur n’importe quelle page Web. C’était aussi le moteur de recherche qui était largement connu par le public.

Arrivée de Lycos et Yahoo ! : l’industrie des moteurs de recherche est lancée

Toujours en 1994, Lycos (qui a débuté à l’Université Carnegie Mellon) a été lancé et est devenu une entreprise commerciale majeure.

Peu de temps après, de nombreux moteurs de recherche sont apparus et ont rivalisé de popularité. Ceux-ci comprenaient Magellan, Excite, Infoseek, Inktomi, Northern Light et AltaVista.

Yahoo! était parmi les moyens les plus populaires pour les utilisateurs de trouver des pages Web d’intérêt, mais sa fonction de recherche fonctionnait sur son répertoire Web, plutôt que sur des pages Web. Les utilisateurs peuvent également parcourir le répertoire au lieu de faire une recherche par mot-clé.

En 1996, Netscape cherchait à offrir un moteur de recherche unique sur son navigateur Web éponyme. Il y a eu tellement d’intérêt que Netscape a conclu des marchés avec cinq des principaux moteurs de recherche.

Pour 5 millions de dollars par an, chaque moteur de recherche était en rotation sur la page du moteur de recherche Netscape. Les cinq moteurs étaient Yahoo !, Magellan, Lycos, Infoseek et Excite.

 Page d′accueil du moteur de recherche Lycos

Page d′accueil du moteur de recherche Lycos

 Page d′accueil du moteur de recherche Yahoo !

Page d′accueil du moteur de recherche Yahoo !

Arrivée de Google et invention du Page Rank

Google, société créée par Sergey Brin et Larry Page, a adopté l’idée de vendre des termes de recherche en 1998, à partir d’une petite compagnie de moteur de recherche appelée goto.com.

À l’an 2000, le moteur de recherche de Google a pris de l’importance. La société a obtenu de meilleurs résultats pour de nombreuses recherches avec une innovation appelée PageRank.

Cet algorithme itératif classe les pages Web en fonction du nombre et du PageRank des autres sites Web et des pages qui y sont liées, en partant du principe que les pages bonnes ou souhaitables sont plus liées que d’autres.

Google a également maintenu une interface minimaliste à son moteur de recherche.

Les moteurs de recherche étaient connus comme étant les plus brillantes sociétés de la frénésie de l‘investissement Internet dans les années 1990. Plusieurs entreprises sont entrées sur le marché de manière spectaculaire, enregistrant des gains records lors de leur introduction en bourse. Certains ont retiré leur moteur de recherche public et commercialisent des éditions réservées aux entreprises, comme Northern Light. Beaucoup de sociétés de moteurs de recherche ont été prises dans la bulle Internet, un boom du marché axé sur la spéculation qui a atteint un sommet en 1999 et s’est terminé en 2001.

 Page d′accueil de Google en 2000

Page d′accueil de Google en 2000

Top 5 Les moteurs de recherche utilisés dans le monde

Quels sont les 5 moteurs de recherche les plus populaires et les plus utilisés au monde?

Outre Google et Bing, il existe d’autres moteurs de recherche qui ne sont peut-être pas très connus mais qui servent néanmoins des millions de requêtes de recherche par jour.

Ce peut être une surprise choquante pour beaucoup de gens mais Google n’est pas le seul moteur de recherche disponible sur Internet aujourd’hui! En fait, il y a un certain nombre de moteurs de recherche qui veulent prendre le trône de Google mais aucun d’entre eux n’est prêt (encore) à poser une menace.

Liste des 5 moteurs de recherche les plus populaires dans le monde (Mise à jour en 2018)

1. Google

Pas besoin de nouvelles introductions. Le géant des moteurs de recherche détient la première place pour la recherche Web.

2. Bing

Bing est la tentative de Microsoft de défier Google dans le domaine de la recherche, mais malgré leurs efforts, ils n’ont toujours pas réussi à convaincre les utilisateurs que leur moteur de recherche peut produire de meilleurs résultats que Google.

3. Yahoo !

Depuis octobre 2011, la recherche Yahoo est alimentée par Bing. Yahoo est toujours le fournisseur de messagerie le plus populaire et selon les rapports détient la quatrième place dans la recherche.

4. Ask

Anciennement connu sous le nom de Ask Jeeves, Ask.com reçoit environ 0,05% des parts de recherche. ASK est basé sur un format de question / réponse où la plupart des questions sont répondues par d’autres utilisateurs ou sont sous la forme de sondages.

Il a également la fonctionnalité de recherche générale, mais les résultats retournés manquent de qualité par rapport à Google ou même Bing et Yahoo.

5. AOL

Selon netmarketshare, le célèbre AOL est toujours dans le top 5 des moteurs de recherche avec une part de marché proche de 0,04%. Le réseau AOL comprend de nombreux sites Web populaires tels que engadget.com, techchrunch.com et huffingtonpost.com.

6. Qwant : le moteur de recherche français !

Je rajoute un 6ème moteur de recherche dans ce Top 5 mais c’est parce que celui-ci est français (cocorico !). Lancé en 2013, Qwant compte en 2018 près de 60 millions de visites mensuelles (sources Similar Web) et ces chiffres sont en constante augmentation.

Qwant se positionne sur la confidentialité et sur la protection des données de ses utilisateurs à la grande différence des autres moteurs de recherche qui pistent les internautes.

 Moteur de recherche français : Qwant

Moteur de recherche français : Qwant

Comment fonctionne un moteur de recherche ?

Les 3 actions principales d’un moteur de recherche

Un moteur de recherche moderne fonctionne toujours de la même manière à partir de 3 actions principales :

  • L’exploration toutes les pages web de tous les sites (web crawling)
  • L’indexation des contenus des pages web explorées
  • L’affichage et le classement des résultats à la suite d’une requête de la part d’un internaute

Les moteurs de recherche Web obtiennent leurs informations en explorant le Web d’un site à l’autre. Le « spider » vérifie le nom de fichier robots.txt, qui lui est adressé, avant de renvoyer certaines informations à indexer en fonction de nombreux critères.

Les principaux critères techniques du référencement d’un site web :

  • La structure technique du site
  • Présence du fichier robots.txt et du fichier sitemap
  • La profondeur des pages
  • Le maillage interne
  • La vitesse de chargement des pages
  • La compatibilité mobile

Les principaux critères sémantiques du référencement d’un site web :

Les principaux critères de popularité du référencement d’un site web :

  • Des backlinks (liens entrants) de qualité
  • Des ancres de liens optimisées et variées
  • La variation de la provenance des liens entrants et des domaines référents
  • Une visibilité sur les réseaux sociaux

Généralement, lorsqu’un utilisateur saisit une requête dans un moteur de recherche, il s’agit de quelques mots clés. L’index a déjà les noms des sites contenant les mots-clés, et ceux-ci sont obtenus instantanément à partir de l’index. La charge de traitement réelle consiste à générer les pages Web qui constituent la liste des résultats de recherche.

Chaque résultats doit être pondéré en fonction des informations contenues dans les index.

L’utilité d’un moteur de recherche dépend de la pertinence des résultats qu’il rend. Bien qu’il puisse y avoir des millions de pages Web qui incluent un mot ou une phrase en particulier, certaines pages peuvent être plus pertinentes, populaires ou faisant autorité que d’autres.

La plupart des moteurs de recherche utilisent des méthodes pour classer les résultats afin de fournir les «meilleurs» résultats en premier.

Comment un moteur de recherche décide quelles pages sont les meilleures, et dans quel ordre les résultats devraient être affichés, varie considérablement d’un moteur à l’autre.

L’évolution permanente des critères de référencement des moteurs de recherche

Les méthodes de classement des résultats des moteurs de recherche changent également au fil du temps à mesure que l’utilisation d’Internet change et que de nouvelles techniques évoluent.

Comment fonctionne un moteur de recherche pour les images ?

Comme pour le texte, les images sont référencées dans l’index des moteurs de recherche.

Mais comme les robots des moteurs ne sont pas capables (pas encore du moins) de décrire le contenu d’une image, ils utilisent les balises html appropriées pour décrire la représentation d’une image ou d’une photo. Ces balises html dédiées sont le titre de l’image, la légende de l’image, la description de l’image et bien sur, le plus important, l’attribut Alt Text.

L’attribut Alt Text est la balise la plus importante pour le référencement naturel des images et celle qui a le plus de poids pour les robots des moteurs. Il est donc important de la remplir avec soin si vous souhaitez voir apparaitre vos images et vos photos dans les résultats des différents moteurs de recherches.

Comment fonctionne un moteur de recherche pour les vidéos ?

La recherche vidéo est assez similaire à celle des images dans le sens où Google et les autres ne sont pas capable de déchiffrer et comprendre le sens et le contenu d’une vidéo. Afin de la référencer les vidéos au mieux, vous devez utiliser des champs textuels dédiés pour décrire de manière précise le contenu de votre vidéo.

Ok Google ! : Comment fonctionne un moteur de recherche vocal

Quel avenir pour la recherche vocale ?

« Le but du moteur de recherche de Google est de devenir cet ordinateur Star Trek, et c’est ce que nous sommes en train de construire. »

C’est ce qu’Amit Singhal, responsable de l’équipe de recherche de Google, a déclaré au sujet de l’avenir de la technologie de recherche de Google lors d’une conversation avec Guy Kawasaki à SXSW Interactive en 2013. Au cours de la dernière décennie, Google a franchi plusieurs étapes audacieuses. L’objectif ambitieux, et l’une des avancées les plus passionnantes a été dans le domaine de la recherche vocale et de la technologie de traitement du langage naturel.

La recherche vocale Google ne se limite pas à la simple commodité. Cela change la façon dont Google traite les requêtes de recherche, comment les utilisateurs recherchent les informations dont ils ont besoin, et même l’attitude à l’égard des moteurs de recherche en général.

 Google Voice - moteur de recherche vocal - Ok Google !

Google Voice - moteur de recherche vocal - Ok Google !

Qu’est-ce que Google Voice Search?

Google Voice Search (ou recherche vocale de Google) est une fonction qui permet aux utilisateurs de rechercher sur le Web à l’aide de Google via des commandes vocales plutôt que de saisir du texte.

Google Voice Search peut être utilisé sur les recherches sur ordinateur et sur mobile. Dans certains cas, les utilisateurs doivent indiquer une phrase de « réveil » pour indiquer à Google de commencer à analyser ce que l’utilisateur dit : « OK, Google« . Cela peut être effectué via une commande vocale mains libres sur certains appareils mobiles.

Outre la manière dont les utilisateurs activent et utilisent les commandes de recherche vocale, il existe très peu de différences entre une recherche vocale parlée et une requête de recherche classique. Même les recherches locales « près de chez moi » seront très similaires aux résultats naturels classiques.

Les utilisateurs sont redirigés vers une page de résultats typique du moteur de recherche.

Les utilisateurs qui recherchent un itinéraire vers un lieu à l’aide d’un appareil mobile peuvent voir une SERP différente d’un utilisateur de bureau recherchant la même information, par exemple.

Dans l’ensemble, les requêtes de recherche vocale renvoient souvent des résultats similaires, sinon pratiquement identiques, aux requêtes textuelles.

Comment les moteurs de recherche gagnent de l’argent ?

La publicité et les annonces sponsorisées

Les moteurs de recherche comme Google gagnent de l’argent à partir de publicités liées à la recherche. Si vous recherchez quelque chose dans Google, il affiche des annonces sponsorisées liées aux mots clés en haut de la page de résultats. Chaque fois qu’un internaute clique sur l’une de ces annonces sponsorisées, le moteur de recherche se rémunère au clic. Les annonceurs paient pour les emplacements dans les résultats de recherche pour les mots-clés de leur choix.

 Annonces sponsorisées - Google adwords

Annonces sponsorisées - Google adwords

Les moteurs personnalisent la recherche en fonction de chaque utilisateur

Les moteurs de recherche tentent de fournir la meilleure expérience utilisateur avec plus d’annonces connexes. Plus les résultats sont proches, plus l’internaute clique sur une annonce sponsorisée. Les moteurs de recherche ont intérêt à maintenir des résultats de recherche de qualité – meilleurs sont les résultats de recherche pour une requête donnée, plus il y a de chances qu’un utilisateur revienne pour utiliser le même moteur de recherche.

Plus le nombre d’utilisateurs d’un moteur de recherche est grand, plus l’audience cible potentielle est importante pour la publicité payée et, par conséquent, elle augmente les revenus de l’entreprise de moteurs de recherche.

Comment choisir par défaut un moteur de recherche sur mon navigateur ?

Quel que soit le navigateur que vous utilisez, définir le moteur de recherche par défaut sur un moteur de votre choix est quelque chose que tous les navigateurs sont capables de faire. En d’autres termes, vous n’êtes pas limité à un moteur de recherche particulier.

Personnalisez votre moteur de recherche par défaut

Le SEME (Search Engine Manipulation Effect)

Les moteurs de recherche et les soupçons de manipulation des internautes

L’effet de la manipulation du moteur de recherche (SEME) est le changement dans les préférences des consommateurs à partir des manipulations des résultats de recherche par les sociétés de moteurs de recherche. Le SEME est l’un des plus grands effets comportementaux jamais découverts.

Cela inclut les préférences de vote lors d’une élection par exemple mais également au niveau commercial afin de favoriser une entreprise aux dépend d’une autre en améliorant sa position dans les pages de résultats.

Une étude réalisée en 2015 a estimé que ces comportements pourraient changer le résultat de plus de 25 %  des élections nationales dans le monde.

D’autre part, Google nie secrètement  » le re-classement  » des résultats de recherche pour manipuler le sentiment des utilisateurs, ou favoriser le classement de certains sites web par rapport à d’autres.