Crawler

Tą nazwą określa się po prostu roboty wyszukiwarki, również Googlebot, używane do indeksowania stron internetowych. Przeszukując zasoby globalnej sieci, gromadzą wszystkie niezbędne informacje stanowiące następnie podstawę do uwzględniania witryny w wynikach wyszukiwania, czyli SERP (Search Engine Results Page). Aby strona mogła się znaleźć na liście wyników, roboty muszą przy indeksacji uwzględnić takie jej elementy jak:

  • zawartość strony, czyli publikowane na niej treści;
  • kod źródłowy, zarówno samej witryny, jak i dodatkowych skryptów;
  • aktualizacje zamieszczanych treści.

Niekiedy, z różnych przyczyn, właściciele stron nie chcą, aby były w części lub całości indeksowane przez roboty wyszukiwarki. Aby crawlery nie miały do niej dostępu, należy odpowiednio zmodyfikować plik robots,txt, umieszczając w nim instrukcję noindex, usuwającą witrynę z wyników wyszukiwania.