« Zurück zum Magazine

Crawl Budget von Google definiert – 7 Learnings

Der Googlebot hat für das Crawling einer Webseite nicht unendlich große Kapazitäten. Aus diesem Grund steht ihm nur ein begrenztes Crawl Budget zur Verfügung.

Allerdings gab es lange keine offizielle Definition dafür, was das Crawl Budget überhaupt ist. Das hat Google nun geändert und den Begriff in einem eigenen Beitrag in der Webmasterzentrale am 16.1.2017 näher erläutert.

Damit Suchmaschinen wie Google Nutzern aktuelle sowie relevante Ergebnisse auf ihre Anfragen liefern können, muss das Web permanent von Bots gecrawlt werden. Dieses Crawling bildet die Grundlage dafür, dass Deine Webseite überhaupt in den Suchergebnislisten indexiert wird.
Jedoch kann der Googlebot nicht permanent alle Webseiten crawlen, seine Aktivität ist beschränkt (das sogenannte Crawl Budget). Im Beitrag von Gary Illyes vom 16.1.2017 wird das Crawl Budget des Googlebots folgendermaßen definiert:

Crawl Budget = Crawling-Frequenz + Crawling Bedarf = Anzahl der URLs, die der Googlebot crawlen darf und will!

Diese Definition wird von weiteren Erläuterungen im Beitrag ergänzt.

Folgende Learnings sind daraus zu ziehen:

1. Das Crawl Budget ist wichtig für die Indexierung Deiner Webseite

Je mehr Budget der Googlebot zur Verfügung hat, desto mehr Seiten Deiner Domain kann er crawlen, desto mehr Inhalte können demnach indexiert werden und in den SERPs erscheinen.

2. Domains mit weniger als 1.000 URLs haben es einfacher

Laut der Aussage von Gary Illyes hat das Crawl Budget grundsätzlich keinen Einfluss auf neu im Web veröffentlichte Seiten, denn sie werden ohnehin vom Googlebot gecrawlt. Außerdem spielt das Crawl Budget für Domains mit weniger als 1.000 URLs keine bedeutende Rolle, da der Googlebot diese Zahl effizient crawlen kann. Erst darüber hinaus spielen weitere Faktoren wie Serverkapazität der Webseite, sowie eine Priorisierung der zu crawlenden URLs eine Rolle.

3. Je schneller die Seite, desto besser die Crawl Rate

Jeder Webmaster, der sich mit SEO beschäftigt, weiß, dass schnelle Webseiten einen positiven Einfluss für die Usability haben. Schnelle Serverantworten haben jedoch auch beim Crawling Vorteile. Je schneller eine Webseite reagiert, desto höher ist die Crawling-Frequenz des Googlebots und desto mehr gleichzeitige Verbindungen kann er für das Crawling nutzen. Wer das Crawl Budget des Googlebots optimal nutzen möchte, sollte auf schnelle Server und schnell ladende Webseiten achten.

Die Crawl-Rate kann auch über die Google Search Console gesteuert werden. So können Webmaster die Frequenz reduzieren, um Serverkapazitäten zu schonen. Eine Erhöhung führt im Gegenzug jedoch nicht automatisch zu einer höheren Frequenz beim Crawling.

4. Das Crawling ist kein Rankingfaktor

Eine höhere Crawling-Frequenz führt nicht zwangsläufig zu besseren Positionen in den Suchergebnissen. (Gary Illyes, Google)

Grundsätzlich ist das Crawling einer Webseite allein nicht rankingrelevant. Allerdings liegt es nahe, dass die Chance auf gute Rankings steigt, je tiefer und öfter Deine Webseite gecrawlt wird.

So können die Algorithmen der Suchmaschine immer wieder abgleichen, wie gut Deine Seite zu einer Suchanfrage passt.

5. Der Crawling-Bedarf hängt von verschiedenen Faktoren ab

Der Googlebot macht das Crawl-Budget davon abhängig, wie hoch der Bedarf ist, Deine Seite überhaupt zu crawlen. Dabei muss er sein gesamtes Budget noch nicht einmal ausschöpfen.

Der Bot crawlt Webseiten häufiger, die laut Illyes "beliebter" sind. Beliebtheit im Web drückt sich gewöhnlich durch die Anzahl eingehender Backlinks aus. Somit wird eine Webseite, die stärker verlinkt ist, auch häufiger gecrawlt. Beliebt könnte auch eine Seite sein, die sehr aktuelle Inhalte enthält und die kontinuierlich aktualisiert wird, wie eine News-Seite. Leider geht Illyes nicht näher auf die "Beliebtheit" ein.
Klarer hingegen ist, dass der Googlebot einen Crawling-Bedarf bei veralteten, indexierten Seiten sieht. Doch auch hier bleibt die Aussage eher unspezifisch. Ein Domainumzug ist jedoch für den Googlebot ein deutliches Signal, die Seite zu crawlen.

6. Alle URLs auf einer Seite werden für das Crawl-Budget berücksichtigt

Der Googlebot folgt allen URLs auf Deiner Seite, deshalb werden alle URLs für das Crawl-Budget berücksichtigt. Dabei spielt es keine Rolle, ob es sich um eingebettete URLs, alternative URLs für hreflang oder AMP handelt. Wer das Crawl-Budget schonen möchte, sollte überflüssige URLs auf seiner Seite entfernen.

7. Es gibt Faktoren, die sich negativ auf das Crawl-Budget auswirken

Google muss ökonomisch denken, schließlich gibt es viele URLs, die täglich gecrawlt werden müssen. Und auch ein Konzern wie Google möchte nicht unnötige finanzielle Ressourcen für das Crawlen von Webseiten ausgeben.

Gary Illyes definiert in seinem Beitrag genau, welche Faktoren das Crawl-Budget minimieren:

  • Facettierte Navigation: Das können zum Beispiel Filter sein, die bei jeder Erweiterung eine neue URL generieren.

  • Duplicate Content

  • Soft-404-Error-Seiten

  • Seiten, die gehackt wurden

  • Qualitativ minderwertige Seiten

  • Spam-Seiten

  • Unendlich erweiterbare Seiten: Das können zum Beispiel Kalender sein, die pro Tag eine neue URL generieren.

So kannst Du das Crawl-Budget des Googlebots schonen

Die einfachste Möglichkeit, um das Crawl-Budget optimal zu nutzen, ist die Reduktion von Duplicate Content. Hierbei kann Dir Ryte helfen: Identifiziere die entsprechenden Seiten und entferne sie, wenn möglich.

duplicate-content-1
Abbildung 1: Doppelte Inhalte mit Ryte identifizieren.

Prüfe zusätzlich Deine robots.txt-Datei und sorge dafür, dass der Googlebot alle relevanten Bereiche crawlen kann.

robots.txt-monitoring

Abbildung 2: Das robots.txt-Monitoring von Ryte

Aktualisiere auch Deine XML-Sitemap regelmäßig. So zeigst Du dem Googlebot alle wichtigen URLs Deiner Webseite, welchen er folgen kann.

Fazit

✓ Erleichtere dem Googlebot das Crawling und erhöhe den Crawling-Bedarf durch frische Inhalte.

✓ Prüfe Deine Seite regelmäßig auf Serverfehler und nutze hierfür die Search Console oder Search Success von Ryte.

✓ Vermeide außerdem Seiten mit geringem Mehrwert, Duplicate Content oder Spam.

Schon hast Du in wenigen Schritten Crawl-Budget gespart und zudem Deine Webseite optimiert. Der Googlebot kommt ohnehin auf Deiner Webseite vorbei, aber Du hast es aber in der Hand, ob er sein Kontingent wirklich ausschöpft!

Vereinfache Dein digitales Marketing mit nur einem Tool – der Ryte Software Suite.

Veröffentlicht am Jan 18, 2017 von Eva Wagner