Crawl Budget


Als Crawl Budget bezeichnet man die Anzahl der Seiten, die Google auf einer Webseite maximal crawlt.

Definition

Google legt selbst fest, wie viele Unterseiten sie pro URL crawlt. Dies ist nicht bei allen Webseiten gleich, sondern wird laut Matt Cutts in erster Linie in Abhängigkeit vom PageRank einer Seite festgelegt.[1] Je höher der PageRank ist, desto größer ist auch das Crawl Budget. Das Crawl Budget bestimmt auch, wie häufig die wichtigsten Seiten der Webseite gecrawlt werden und wie oft ein tiefgehender Crawl erfolgt.

Abgrenzung zum Index Budget

Abzugrenzen ist der Begriff des Crawl Budgets vom Index Budget. Dieses legt fest, wie viele URLs indexiert werden können. Der Unterschied wird deutlich, wenn eine Seite viele Seiten enthält, die einen 404-Fehlercode zurückgeben. Jede aufgerufene Seite belastet das Crawl-Budget. Da sie aufgrund der Fehlermeldung aber nicht indexiert werden kann, wird das Index Budget nicht vollständig ausgeschöpft.

Problematik

Aus dem Crawl Budget ergibt sich eine Problematik für größere Webseiten mit sehr vielen Unterseiten. Im Regelfall werden dann nämlich nicht alle Unterseiten gecrawlt, sondern nur ein Teil davon. Demzufolge können auch nicht alle Unterseiten indexiert werden. Dies wiederum bedeutet jedoch, dass dem Seitenbetreiber Traffic entgeht, auf den er nicht verzichten müsste, wären die betreffenden Seiten indexiert.

Bedeutung für die Suchmaschinenoptimierung

Auf dieser Grundlage hat sich mit der Crawl Optimization ein Teilbereich der Suchmaschinenoptimierung herausgebildet. Dabei geht es darum, den Googlebot dahingehend zu steuern, dass er das vorhandene Crawl Budget möglichst sinnvoll ausnutzt und insbesondere Seiten mit hoher Qualität und hoher Bedeutung für den Betreiber indexiert. Zunächst müssen die Seiten identifiziert werden, die von untergeordneter Bedeutung sind. Hierzu gehören insbesondere Seiten mit schlechtem Content bzw. niedrigem Informationsgehalt, aber auch fehlerhafte Seiten, die einen 404-Errorcode zurückgeben. Diese Seiten werden vom Crawling ausgeschlossen, sodass das Crawl Budget für höherwertige Unterseiten verfügbar bleibt. Anschließend werden die wichtigen Unterseiten so gestaltet, dass sie vom Spider bevorzugt gecrawlt werden. Mögliche Maßnahmen im Rahmen der Crawl Optimization sind unter anderem:


  • Realisierung einer flachen Seitenarchitektur, bei der der Weg zu den Unterseiten möglichst kurz ist und nur wenige Klicks erfordert
  • sehr gute interne Verlinkung der wichtigsten Seiten
  • Ausschluss von unwichtigen Seiten vom Crawling durch die robots.txt (z. B. Log-in Seiten, Kontaktformulare, Bilder)
  • Angebot einer XML-Sitemap mit einer URL-Liste der wichtigsten Unterseiten


Wird durch die Crawl Optimization das Portfolio an gecrawlten und indexierten Seiten verbessert, kann sich dadurch auch das Ranking verbessern. Seiten mit einem guten Ranking werden häufiger gecrawlt, was wiederum Vorteile mit sich bringt.

Einen informativen Vortrag zum Thema "Crawl Budget Best Practices" von Jan Hendrik Merlin Jacob auf der SEOkomm 2015 findest Du hier .

Einzelnachweise

Weblinks