Robot d’indexation : crawler, bot et spider

A quoi servent les robots d’indexation ?

Comment les moteurs de recherches font-ils pour indexer les pages des sites web ? Comme les êtres humains : ils se rendent sur les pages, les lisent, et suivent les liens hypertextes, ce qui leur permet, de fil en aiguille, de visiter des milliers, des millions puis des milliards de pages web. La différence avec nous ? Ils ont une mémoire infinie, et lisent un texte de 2000 mots en quelques millisecondes. Leur « lecture » consiste à collecter les informations des pages sous forme de métadonnées, puis à les stocker dans une base de données. C’est cette base de données qui sera ensuite consultée pour chaque recherche effectuée par un internaute sur un moteur.

Crawler, crawling, spider et bot

La mission qui consiste à visiter sans relâche et de manière automatisée les pages du web s’appelle le crawling. Elle est réalisée par un crawler, appelé aussi spider ou bot. Tous ces termes désignent en fait le même logiciel : le robot d’indexation.

Comprendre les bots, c’est comprendre le SEO

On comprend mieux pourquoi la structure d’une page html et les liens ont une importance déterminante en SEO. Mettre les bonnes informations au bon endroit, par exemple le titre d’une page dans une balise <title>, ou un résumé dans le <meta> description, permet aux crawlers de remonter facilement les données dans leur base. S’assurer que les nouvelles pages sont systématiquement liées à plusieurs autres pages déjà indexées permettra aux bots de les découvrir plus rapidement lors de leur passage, et donc de faire indexer ces pages dans les moteurs de recherche.

Fréquence de passage des crawlers

En fonction de la fréquence de mise à jour d’un site web, les robots d’indexation vont venir plus ou moins régulièrement sur les pages pour remettre à jour l’index du moteur de recherche pour lequel ils travaillent.

Comment savoir si un robot a visité un site ?

La plupart des outils de web analytics filtrent le trafic issu des robots. Il est cependant possible de savoir quelles pages visitent les bots et leur fréquence de passage en consultant, par exemple, les logs serveurs, ou en utilisant un outil statistique en mode non filtré. Les spiders « honnêtes » indiquent généralement leur identité sous la forme d’un user-agent. Pour Bing, il s’agira par exemple de :"Mozilla/5.0 (compatible; bingbot/2.0;+http://www.bing.com/bingbot.htm"

Spambot : le côté obscur des crawler

Tous les bots ne sont pas utiles et bienveillants. Les spambots visitent les sites pour collecter des adresses e-mails se trouvant sur les pages web ou faire du scraping de contenus automatisé. Ces derniers laissent rarement leur carte de visite, comme ici :