Googlebot

Der Googlebot ist der Crawler von Google, der Dokumente aus dem Internet sammelt und diese für den Google Index und später die Google-Suche zusammenstellt. Er sammelt Dokumente durch ein automatisiertes Verfahren, das ähnlich wie ein Webbrowser arbeitet. Der Bot sendet eine Anfrage und erhält von einem Server eine Antwort.

Wenn bestimmte Parameter dem Googlebot Zugang gewähren, lädt er eine einzelne Webseite, die unter einer URL erreichbar ist, herunter und speichert diese zunächst im Index von Google. Auf diese Weise crawlt der Googlebot das weltweite Internet, wobei er auf verteilte Ressourcen zurückgreifen kann: Die Rechenleistung für den Googlebot ist auf ein riesiges System von Rechenzentren verteilt, sodass er gleichzeitig Tausende Webseiten crawlen kann.

Allgemeine Informationen

Die Crawler-Technologie von Google ist im Grunde ein Algorithmus, der selbständig arbeitet. Er basiert auf dem Konzept des WWW (World Wide Web). Das Internet kann man sich wie ein sehr großes Netz von Webseiten, auch Knoten, und Verbindungen, auch Hyperlinks, vorstellen.

Mathematisch lässt sich dieses Konzept als Graph beschreiben: Jeder Knoten ist durch eine Webadresse, eine URL, erreichbar. Die Links auf einer Webseiten führen dabei entweder zu weiteren Unterseiten oder zu anderen Ressourcen mit einer anderen URL bzw. Domainadresse. Der Crawler unterscheidet deshalb HREF-Links – die Verbindungen – und SRC-Links – die Ressourcen. Wie ein Crawler am schnellsten und effektivsten den gesamten Graphen durchsuchen kann, wird in der Graphentheorie beschrieben.^[1]

Google arbeitet hier mit verschiedenen Techniken. Einerseits nutzt Google das sogenannte Multi-Threading, also die gleichzeitige Bearbeitung mehrerer Crawling-Prozesse. Andererseits arbeitet Google mit fokussierten Crawlern, die sich auf thematisch eingeschränkte Bereiche konzentrieren, z.B. auf das Durchsuchen des Webs anhand bestimmter Arten von Links, Webseiten oder Inhalten. So gibt es von Google einen Bot für das Crawlen von Bildern, einen für Suchmaschinenwerbung und einen für mobile Endgeräte.^[2]

Praxisbezug

Webmaster und Seitenbetreiber haben verschiedene Möglichkeiten, dem Crawler Informationen zu ihrer Webseiten zur Verfügung zu stellen oder ggf. auch zu verwehren. Jeder Crawler ist zunächst durch die Bezeichnung User Agent gekennzeichnet. Beim Googlebot lautet die Bezeichnung in den Logfiles des Servers 'Googlebot' von der Hostadresse 'googlebot.com'.^[3]

Bei der Suchmaschine Bing ist dies der 'Bingbot' der Adresse 'bing.com/bingbot.htm '. Die Logfiles verraten Webmastern, wer Anfragen an den Server sendet. Webmaster können bestimme Bots aussperren oder ihnen Zugang gewähren. Dies geschieht entweder über die Robots.txt Datei, mithilfe des Attribut Disallow: /, oder mit bestimmten Meta-Angaben eines HTML-Dokumentes.^[4] Wenn ein Webmaster die Informationen seiner Webseite im Google-Bot eingeschränkt berücksichtigt haben will, kann dies durch Anfügen eines Meta Tags auf der Webseite erzielt werden. Dieses Meta Tag kann beispielsweise wie folgt aussehen:

<meta name = "Googlebot" content = "nofollow" />

Auch die Frequenz, mit der der Googlebot eine Webseite durchsucht, kann definiert werden. Dies erfolgt in der Regel über die Google Search Console.^[5] Das ist insbesondere dann empfehlenswert, wenn der Crawler die Serverleistung beeinträchtigt oder die Webseiten oft aktualisiert wird und dementsprechend oft gecrawlt werden soll. Wieviele Seiten einer Webseite gecrawlt werden, wird durch das Crawl Budget angegeben.

Bedeutung für SEO

Für die Suchmaschinenoptimierung von Webseiten ist es besonders wichtig zu wissen, wie der Googlebot arbeitet. Nicht nur in der Theorie, sondern vor allem in der Praxis So ist es empfehlenswert, eine neue URL dem Crawler hinzuzufügen oder auf andere Weise zu 'seeden' – also dem Bot eine Adresse als Start-URL zur Verfügung zu stellen. Da der Bot auch durch Verweise auf anderen Webseiten neue Inhalte und weitere Verweise findet, kann ein HREF-Link auf einer bestimmten Ressource dafür sorgen, dass der Bot eine neue URL bekommt.

Man sendet einfach einen Ping ins WWW. Früher oder später wird der Googlebot bei der geseedeten Adresse vorbeikommen. Zudem ist es empfehlenswert dem Bot sogenannte Sitemaps an die Hand zu geben. Dadurch erhält er wichtige Informationen über die Struktur einer Site und weiß gleichzeitig, welchen URLs er als nächstes folgen kann. Das bietet sich gerade dann an, wenn eine umfangreiche Webseite neu aufgesetzt wurde.

Da der Googlebot verschiedene Arten von Inhalten auslesen kann, nicht nur Text oder Bilder, sollte man die Entwicklung im Auge behalten: Google arbeitet seit einigen Jahren daran, das Auslesen von Flash-Inhalten, dynamischen Webseiten, JavaScript-Code sowie Ajax-Code zu ermöglichen und ist in diesen Bereichen teilweise schon erfolgreich.^[6]Bestimmte Methoden wie GET oder POST kann der Googlebot schon identifizieren, auch Teile von Flash-Inhalten werden schon ausgelesen.^[7]

Einzelnachweise

↑ Webcrawling. e.uni-magdeburg.de. Abgerufen am 19. März 2014.
↑ Die Crawler von Google. support.google.com. Abgerufen am 19. März 2014.
↑ How to verify Googlebot. googlewebmastercentral.blogspot.de. Abgerufen am 19. März 2014.
↑ Seiten mithilfe einer robots.txt-Datei blockieren oder entfernen. support.google.com. Abgerufen am 19. März 2014.
↑ Crawling-Frequenz von Google ändern. support.google.com. Abgerufen am 19. März 2014.
↑ GET,POST, and safely surfacing more of the web. googlewebmastercentral.blogspot.de. Abgerufen am 19. März 2014.
↑ Improved Flash Indexing. googlewebmastercentral.blogspot.de. Abgerufen am 19. März 2014.

Weblinks

[1] Webcrawling. e.uni-magdeburg.de. Abgerufen am 19. März 2014.

[2] Die Crawler von Google. support.google.com. Abgerufen am 19. März 2014.

[3] How to verify Googlebot. googlewebmastercentral.blogspot.de. Abgerufen am 19. März 2014.

[4] Seiten mithilfe einer robots.txt-Datei blockieren oder entfernen. support.google.com. Abgerufen am 19. März 2014.

[5] Crawling-Frequenz von Google ändern. support.google.com. Abgerufen am 19. März 2014.

[6] GET,POST, and safely surfacing more of the web. googlewebmastercentral.blogspot.de. Abgerufen am 19. März 2014.

[7] Improved Flash Indexing. googlewebmastercentral.blogspot.de. Abgerufen am 19. März 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]