Les moteurs de recherche et leur fonctionnement
Les moteurs de recherche sont des sites spéciaux sur le Web qui sont conçus pour aider les gens à trouver des informations stockées sur d’autres sites. Il existe des différences dans le fonctionnement des différents moteurs de recherche, mais ils accomplissent tous trois tâches fondamentales :
– Ils effectuent des recherches sur Internet – ou sur des parties sélectionnées d’Internet – sur la base de mots importants,
– Ils conservent un index des mots qu’ils trouvent et de l’endroit où ils les trouvent.
– Ils permettent aux utilisateurs de rechercher des mots ou des combinaisons de mots trouvés dans cet index.
Les premiers moteurs de recherche détenaient un index de quelques centaines de milliers de pages et de documents, et recevaient peut-être un ou deux milliers de requêtes par jour. Aujourd’hui, les meilleurs moteurs de recherche indexent des centaines de millions de pages et répondent à des dizaines de millions de requêtes par jour.
Avant qu’un moteur de recherche puisse vous dire où se trouve un fichier ou un document, il faut le trouver. Pour trouver des informations sur les centaines de millions de pages Web existantes, un moteur de recherche emploie des robots logiciels spéciaux, appelés araignées, pour établir des listes de mots trouvés sur les sites Web.
Lorsqu’une araignée établit ses listes, le processus est appelé « exploration du Web ».
Afin de construire et de maintenir une liste de mots utile, les robots d’un moteur de recherche doivent examiner un grand nombre de pages. Comment une araignée commence-t-elle ses voyages sur le Web ? Les points de départ habituels sont les listes de serveurs très utilisés et les pages très populaires. L’araignée commencera par un site populaire, indexera les mots de ses pages et suivra chaque lien trouvé sur le site. De cette façon, le système d’araignée commence rapidement à voyager, se répandant dans les parties les plus utilisées du Web.
Une fois que les araignées ont terminé la tâche de trouver des informations sur les pages Web, le moteur de recherche doit stocker les informations de manière à les rendre utiles. Deux éléments clés sont nécessaires pour rendre les données recueillies accessibles aux utilisateurs :
– L’information stockée avec les données, et
– la méthode d’indexation de l’information.
Dans le cas le plus simple, un moteur de recherche pourrait simplement stocker le mot et l’URL où il a été trouvé. En réalité, cela donnerait un moteur d’une utilité limitée, car il n’y aurait aucun moyen de savoir si le mot a été utilisé de manière importante ou anodine sur la page, s’il a été utilisé une ou plusieurs fois ou si la page contient des liens vers d’autres pages contenant le mot. En d’autres termes, il n’y aurait aucun moyen de construire la liste de classement qui tente de présenter les pages les plus utiles en haut de la liste des résultats de recherche.
Pour obtenir des résultats plus utiles, la plupart des moteurs de recherche stockent plus que le mot et l’URL. Un moteur de recherche peut stocker le nombre de fois que le mot apparaît sur une page. Le moteur peut attribuer un poids à chaque entrée, avec des valeurs croissantes pour les mots qui apparaissent en haut du document, dans les sous-titres, dans les liens, dans les balises META ou dans le titre de la page. Chaque moteur de recherche commercial utilise une formule différente pour attribuer un poids aux mots de son index. C’est l’une des raisons pour lesquelles une recherche du même mot sur différents moteurs de recherche produira des listes différentes, avec des pages présentées dans des ordres différents.
Un index n’a qu’un seul but : permettre de trouver des informations aussi rapidement que possible. Il existe plusieurs façons de construire un index, mais l’une des plus efficaces consiste à construire une table de hachage. Dans le cas du hachage, une formule est appliquée pour attacher une valeur numérique à chaque mot.
La formule est conçue pour répartir uniformément les entrées sur un nombre prédéterminé de divisions. Cette répartition numérique est différente de la répartition des mots dans l’alphabet, et c’est la clé de l’efficacité d’une table de hachage.
Lorsqu’une personne demande une recherche sur un mot clé ou une expression, le logiciel du moteur de recherche cherche dans l’index les informations pertinentes. Le logiciel renvoie ensuite un rapport à la personne qui a effectué la recherche, avec les pages Web les plus pertinentes en premier.
Envie de lire la suite ?
Cliquez tout simplement sur le bouton bleu et obtenez votre accès immédiat !
Les moteurs de recherche et leur fonctionnement
Lorsqu’une araignée établit ses listes, le processus est appelé « exploration du Web ».
Choisir une société de référencement
Sélection des mots-clés pour les moteurs de recherche
Améliorer votre classement dans les moteurs de recherche
Renforcer la popularité de vos liens
Protéger votre classement dans les moteurs de recherche
Les principaux moteurs de recherche