Crawling und Indexierung sind zwei Voraussetzungen dafür, dass eine Webseite überhaupt in den Suchergebnissen gelistet wird.
Diese Aufgabe wird vom Googlebot übernommen. Allerdings steht ihm hierfür nur ein beschränktes Crawl Budget zur Verfügung. Damit eine Webseite optimal gecrawlt und indexiert wird, sollte das Crawl Budget deshalb optimal ausgeschöpft werden.
Das Crawl Budget wird von Google definiert als die Summe aus Crawling Frequenz und Crawling Bedarf. Das Budget selbst besteht dann aus einer bestimmten Anzahl von URLs, die der Googlebot crawlen darf und crawlen möchte. Eine genauere Erläuterung zum Crawlbudget liefert Gary Illyes von Google im viel beachteten Beitrag "Was das Crawl-Budget für den Googlebot bedeutet", der am 16. Januar 2017 in der Google Webmasterzentrale veröffentlicht wurde. Die Hinweise und Erläuterungen werden nun Stück für Stück erklärt.
Als Googlebot wird ein Programm bezeichnet, das Dokumente im Web sammelt, URLs folgt und die Webdokumente der besuchten Seiten indexiert. In der Regel basiert die Arbeit des Googlebots auf vier zentralen Schritten:
1. Google findet eine URL, zum Beispiel über interne Links, eine XML-Sitemap oder eingehende Links.
2. Aus den gefundenen Links wird eine Liste erstellt, innerhalb derer die einzelnen URLs für das Crawling priorisiert werden.
3. Anschließend wird dem Googlebot das sogenannte „Crawl Budget“ zur Verfügung gestellt. Es bestimmt wie schnell die URLs auf einer Webseite gecrawlt werden.
4. Ein "Scheduler" genanntes Programm steuert anschließend den Googlebot und lässt ihn die URLs gemäß ihrer Priorität und unter Berücksichtigung des Crawl Budgets abarbeiten.
Dieser gesamte Ablauf erfolgt kontinuierlich. Dies bedeutet, dass immer weitere URLs auf die Liste gesetzt werden, während der Googlebot URLs crawlt und indexiert. Dabei wird das Crawl Budget jedes Mal erneut angepasst.
Wichtig ist dabei, dass der Googlebot sein Crawl Budget nicht ausschöpfen muss. Denn neben der Crawling Frequenz spielt eben auch der Crawling Bedarf eine Rolle. Sieht Google URLs als nicht so wichtig an, kann deren Crawling auch ausfallen. So stehen mehr Ressourcen für andere URLs zur Verfügung.
Damit Webseiten überhaupt ranken können, müssen sie zuvor gecrawlt und indexiert werden. Der Besuch durch den Googlebot ist somit unbedingte Voraussetzung dafür, dass eine Webseite in den Suchergebnissen erscheinen kann.
Deshalb ist es für Webmaster wichtig, dass die URLs überhaupt gefunden werden können. Darüber hinaus muss Google die URL wertig genug finden, damit sie eine hohe Priorität auf der Crawlingliste erhält. Google selbst wird zum Beispiel wenig gepflegte und inhaltslose Seiten in geringerem Umfang und seltener crawlen als hochwertige Seiten.
Grundsätzlich gilt jedoch, dass Google Webseiten mit weniger als 1.000 URLs problemlos umfassend crawlen kann, unabhängig vom zur Verfügung stehenden Crawl Budget. Für Seiten mit mehr als 1.000 URLs gilt deshalb umso mehr, dass Inhalte und URLs gepflegt werden. Denn Google wird zwar das größtmögliche Crawl Budget bereitstellen, sich jedoch überwiegend auf die zentralen URLs konzentrieren, die am besten gepflegt werden.
Wenn der Googlebot URLs crawlt, wird er u.a. vom sogenannten "Crawl Rate Limit" bestimmt. Der Googlebot setzt sich dieses Limit selbst. Es wird davon ausgegangen, dass er die passende Crawlingeschwindigkeit an die Serverantworten sowie an mögliche Fehlermeldungen bei zu vielen gleichzeitigen oder schnellen Anfragen anpasst. Wie hoch dieses Limit ausfällt, hängt von folgenden beiden Faktoren ab:
Die Anzahl der zeitgleich möglichen Serveranfragen, die der Bot auf einer Webseite durchführen kann.
Die Zeitspanne zwischen den einzelnen Server-Requests.
Ein Beispiel:
Google hat ermittelt, dass das Crawl Budget bei 10 gleichzeitigen Verbindungen liegt und jeweils 3 Sekunden zwischen den Anfragen möglich sind. In diesem Fall kann Google 200 URLs innerhalb von einer Minute crawlen.
Einstellungen über die Google Search Console ändern: Das Crawl Rate Limit können Webmaster direkt über die Google Search Console steuern. Im Bereich Website Einstellungen lässt sich eine schnelles oder ein langsameres Crawling auswählen.
Abbildung 1: Google Crawling Geschwindigkeit über die Search Console einrichten.
Wichtig ist an dieser Stelle, dass keine zu hohe Crawl-Frequenz gewählt wird, damit sich der Server nicht verlangsamt. Wie lange der Googlebot letztlich auf der Seite ist, wird darüber hinaus nicht genauer von Google spezifiziert.
Servergeschwindigkeit optimieren: Unabhängig von den Einstellungen der Search Console sollten Webmaster vor allem sicherstellen, dass die Server schnell antworten. Auf diese Weise kann die Crawlinggeschwindigkeit deutlich verbessert werden. Google selbst empfiehlt, die Antwortzeit unter 200 Millisekunden zu lassen. Damit ist übrigens nicht der "Page Speed" gemeint. Die Servergeschwindigkeit bezieht sich auf die Reaktionszeit des Servers und die mögliche Anzahl gleichzeitiger Verbindungen. Die Ladezeit der Webseite hängt jedoch von weiteren Faktoren wie dem Quellcode oder verwendeten Skripten und CSS-Dateien ab.
Server-Fehler prüfen: In der Google Search Console können Serverfehler beim Crawling in einem eigenen Report kontrolliert werden. (Crawling -> Crawling-Fehler) Dort werden die Fehler inklusive dem entsprechenden Statuscode angezeigt.
Abbildung 2: Server-Fehler mit der Search Console von Google anzeigen lassen.
Die Crawlinggeschwindigkeit einer Webseite durch den Googlebot ist an technische Grenzen geknüpft. Doch letztlich kann der Googlebot auch ohne diese Grenzen weit weniger Seiten crawlen als es das Limit vorgibt. Hierfür ist der von Google sogenannte "Crawl Demand", also der Crawling-Bedarf verantwortlich. Verkürzt entscheidet der Googlebot dabei, ob sich das Crawling einer Webseite überhaupt lohnt oder ob das Crawl Budget stattdessen geschont werden soll.
Im oben erwähnten Blogpost zum Crawl Budget spricht Google davon, dass stärker besuchte Seiten zum Beispiel öfter gecrawlt werden. Auch bei der Entscheidung, wie hoch der Crawling Bedarf ist, spielt die Priorisierung wieder eine Rolle. Der "Scheduler" stuft die URLs auf seiner Liste nach Prioritäten ein. Folgende Abstufungen sind hierbei denkbar:
Ist die URL eine Homepage oder Unterseite? Es ist davon auszugehen, dass die Homepage für den Googlebot die höchste Priorität hat. Sie wird immer ganz oben auf der Liste mit URLs stehen.
Ist die URL wertvoll und beliebt? Vermutlich werden Webseiten mit vielen eingehenden Links, hochwertigem Content, hohem Traffic und einer niedrigen Absprungrate öfter gecrawlt als Webseiten mit schlechteren Werten. Welche Faktoren genau eine Rolle spielen, hat Google nicht veröffentlicht. Vermutlich werden jedoch auch die Rankingfaktoren für die Priorisierung herangezogen.
Wechseln die Inhalte die URL oft? Bei häufigen Seitenupdates wird der Googlebot eher einen erhöhten Crawlingbedarf erkennen als bei URLs, die sich kaum ändern.
Wann wurde die URL letztmalig gecrawlt? Ist eine URL auf einer Liste schon über einen längeren Zeitraum nicht gecrawlt worden, ist die Chance höher, dass sie wieder eine höhere Priorität erhält, da Google seinen Index aktuell halten möchte.
Eine genaue Übersicht über die Abrufe des Googlebot lässt sich über die Auswertung von Server-Logfiles erhalten.
Verwaiste Seiten vermeiden: Verwaiste Seiten sind URLs, die nicht über die Webseite durch die interne Verlinkung erreicht werden können. Für den Googlebot sind sie ebenso wenig nützlich wie für Nutzer.
URLs in einer Sitemap-XML listen: Mit Hilfe einer Sitemap-XML können Webmaster alle relevanten URLs einer Domain in der Google Search Console hinterlegen. Auf diese Weise erfährt der Googlebot, welche URLs vorhanden sind und kann sie dem Scheduler übergeben.
robots.txt nutzen: Mit Hilfe der robots.txt-Datei kann dem Googlebot das Crawling aller wichtigen Webseiten-Bereiche ermöglicht werden. Über die robots.txt kann zum Beispiel auch das Crawling und Indexing von Kontaktformularen vermieden werden.
Den Cache einer Seite prüfen: Über die Google-Site-Search können einzelne URLs einer Domain aufgerufen werden. Mit dem Klick auf "Cache" lässt sich kontrollieren, wann die Seite letztmalig in den Index aufgenommen wurde. Wurde der Cache schon vor längerer Zeit angelegt und es haben sich wichtige Inhalte auf der Webseite geändert, kann die URL auch über die Search Console manuell an den Index geschickt werden.
Abbildung 3: URL an den Google-Index senden.
Facettierte Navigation kontrollieren: Eine facettierte Navigation kann durch Filtermöglichkeiten unzählige URLs generieren. Für den Googlebot stellen diese "Filter-URLs" meist nur einen geringen Mehrwert dar. Deshalb reduziert die facettierte Navigation häufig das Crawl Budget. Um das zu vermeiden, sollte die Struktur dieser Navigation möglichst genau kontrolliert und definiert werden. So lassen sich zum Beispiel überflüssige URLs mit einem Canonical-Tag versehen, der auf die "Original-Seite" verweist. Ebenso ist es möglich in den < head > -Bereich der nicht benötigten URLs einen "Noindex,follow" Metatag einzufügen. Über das Parameter-Tool der Google Search Console können ebenfalls Such-Parameter in den URLs vom Crawling und Indexing ausgeschlossen werden.
Unendliche URLs vermeiden: Diese Art von URLs kann sowohl durch seitenweite Suchfunktionen als auch durch "weiter"-Links auf der Seite entstehen. Durch den Ausschluss der internen Suchergebnisse vom Crawling lässt sich das Crawl Budget deutlich schonen.
404-Fehlerseiten verwenden: Um unendliches Crawling von Soft 404-Seiten zu vermeiden, sollten nicht vorhandene URLs den Code 404 (not found) ausgeben. Auf diese Weise wird verhindert, dass der Googlebot diese URLs weiterhin crawlt und somit Crawl Budget verschenkt.
Der Googlebot nimmt sich für das Crawling Deiner Seite nur begrenzt Zeit. Doch durch das Beheben von technischen Fehlern kannst Du das Crawling verbessern. Zugleich ist es wichtig, dass Google überhaupt einen Crawling Bedarf erkennt und an dieser Stelle wird die Beschäftigung mit dem Crawl Budget zu einem Kernthema der Suchmaschinenoptimierung. Denn letztlich hängt es von der Qualität Deiner Webseite ab, wie häufig der Googlebot Deine Webseiten besucht. Somit kannst Du zum Beispiel durch einzigartigen und hochwertigen Content dazu beitragen, dass das Crawl Budget optimal ausgeschöpft wird.
Veröffentlicht am Mar 13, 2017 von Eva Wagner