5 Dinge, die Du noch nicht über den Googlebot wusstest

Google muss Deine Website crawlen, bevor diese den Usern in den Suchergebnissen angezeigt werden kann. Obwohl das ein essentieller Step ist, wird dem Ganzen nicht so viel Aufmerksamkeit geschenkt wie vielen anderen Themen. Ich denke, das liegt zum Teil daran, dass Google nicht viele Informationen darüber preisgibt, wie genau der Googlebot das Web durchsucht.

Angesichts dessen, dass viele unserer Kunden damit kämpfen, ihre Website richtig crawlen und indexieren zu lassen, haben wir uns gemeinsam mit Bartosz Góralewicz durch einen Haufen Google Patente gewühlt, die sich mit Crawling, Rendering und Indexierung beschäftigen, um den Prozess besser nachvollziehen zu können. Einige unserer Erkenntnisse daraus waren sehr überraschend, während andere unsere bestehenden Theorien bestätigt haben. Im Folgenden zeige ich Dir 5 Dinge, die ich über die Funktionsweise des Googlebots gelernt habe, die Du vielleicht noch nicht kennst.

1. Der Googlebot überspringt manche URLs

Der Googlebot besucht nicht jede URL, die er im Netz findet. Je größer eine Website ist, umso größer das Risiko, dass manche der URLs nicht gecrawlt und indexiert werden. Warum besucht der Googlebot nicht einfach jede URL, die er finden kann? Dafür gibt es zwei Gründe:

Google verfügt nur über begrenzte Ressourcen. Es gibt viel Spam im Netz, also muss Google Mechanismen entwickeln, um qualitativ minderwertige Websites zu umgehen. Google priorisiert also beim Crawlen die wichtigen Seiten.
Googlebot ist als “Good Citizen” des Internets kreiert. Er schränkt sein Crawling ein, um Deinen Server nicht abstürzen zu lassen.

Der Auswahlmechanismus dafür, welche URLs besucht werden sollen, wird in dem Google Patent “Method and apparatus for managing a backlog of pending URL crawls” beschrieben:

“The pending URL crawl is rejected from the backlog if the priority of the pending URL crawl fails the priority threshold.“
“Various criteria are applied to the requested URL crawls, so that less important URL crawls are rejected early from the backlog data structure.”

Diese Zitate legen nahe, dass Google jeder URL eine Crawling Priorität zuweist, und manche URLs nicht crawlt, wenn diese den Prioritätskriterien nicht entsprechen.
Die der URL zugeteilte Priorität wird von zwei Faktoren bestimmt:

Der Beliebtheit einer URL
Der Wichtigkeit, eine gegebene URL zu crawlen, um die Aktualität des Google Indexes zu erhalten.

“The priority can be higher based on the popularity of the content or IP address/domain name, and the importance of maintaining the freshness of the rapidly changing content such as breaking news. Because crawl capacity is a scarce resource, crawl capacity is conserved with the priority scores.”

Was genau macht eine URL beliebt? Google’s Patent “Minimizing visibility of stale content in web searching including revising web crawl intervals of documents” definiert die URL-Beliebtheit als eine Kombination aus zwei Faktoren: View Rate und PageRank. PageRank ist in diesem Kontext auch in anderen Patenten erwähnt, wie in “Scheduler for search engine crawler”.

Aber es gibt eine weitere Sache, die Du wissen solltest: Wenn Dein Server nur langsam reagiert, steigt die Prioritätsschwelle, die Deine URLs überwinden müssen.

“The priority threshold is adjusted, based on an updated probability estimate of satisfying requested URL crawls. This probability estimate is based on the estimated fraction of requested URL crawls that can be satisfied. The fraction of requested URL crawls that can be satisfied has as the numerator the average request interval, or the difference in arrival time between URL crawl requests.“

Zusammenfassend kann man also sagen, dass der Googlebot einige Deiner URLs im Crawl überspringen kann, wenn die URLs die Prioritätsschwelle nicht überschreiten, die auf dem PageRank der URL und der Anzahl der Views, die sie erhält, basiert. Das hat starke Auswirkungen auf jede große Website. Wenn eine Seite nicht gecrawlt wird, wird sie nicht indexiert und in den Suchergebnissen angezeigt.

To Do:
Stelle sicher, dass Dein Server und Deine Website schnell sind.
Prüfe Deine Server Logs. Sie liefern Dir wertvolle Insights darüber, welche Seiten auf Deiner Website von Google gecrawlt werden.

2. Google teilt Seiten zum erneuten Crawlen in neue Ebenen ein

Google will die Suchergebnisse so aktuell wie möglich halten. Das ist nur möglich, wenn ein Mechanismus existiert, um bereits indexierten Content erneut zu crawlen. In dem "Minimizing visibility of stale content in web searching"-Patent habe ich Informationen dazu gefunden, wie dieser Mechanismus strukturiert ist.

Google teilt Seiten in Ebenen ein, je nachdem, wie oft sie laut Algorithmus erneut gecrawlt werden müssen.

“In one embodiment, documents are partitioned into multiple tiers, each tier including a plurality of documents sharing similar web crawl intervals.”

Wenn Deine Seiten also nicht so oft gecrawlt werden, wie Du gerne möchtest, sind sie wahrscheinlich in einer Dokumentebene mit längeren Crawling-Intervallen gelandet. Aber keine Panik! Deine Seiten müssen dort nicht für immer bleiben: Jedes Mal, wenn eine Seite gecrawlt wird, hast Du die Chance, zu zeigen, dass die Seite es verdient hat, in Zukunft öfter erneut gecrawlt zu werden.

“After each crawl, the search engine re-evaluates a document's web crawl interval and determines if the document should be moved from its current tier to another tier.”

Wenn Google also eine Seite erkennt, die sich öfter verändert, könnte sie in eine neue Ebene wandern. Es reicht aber nicht, kleine Schönheitselemente zu ändern. Google analyisert sowohl die Qualität als auch die Quantität der Änderungen, die Du auf den Seiten vornimmst.

To Do:
Nutze Deine Server Logs und die Google Search Console, um herauszufinden, ob Deine Seiten oft genug gecrawlt werden.
Verbessere die Qualität Deines Contents regelmäßig, wenn Du das Crawling-Intervall für Deine Seiten senken möchtest.

Google indexiert die Seiten beim Crawling nicht neu

Laut dem "Minimizing visibility of stale content in web searching including revising web crawl intervals of documents"-Patent indexiert Google eine Seite nicht nach jedem Crawl neu.

“If the document has changed materially since the last crawl, the scheduler sends a notice to a content indexer (not shown), which replaces index entries for the prior version of the document with index entries for the current version of the document. Next, the scheduler computes a new web crawl interval for the document based on its old interval and additional information, e.g., the document's importance (as measured by a score, such as PageRank), update rate and/or click rate. If the document's content has not been changed or if the content changes are non-critical, there is no need to re-index the document.”

Ich selbst habe das auch schon ein paar Mal beobachtet. Nach weiteren Experimenten mit bestehenden Seiten bei Onely.com ist mir aufgefallen, dass Google den Content nicht neu indexiert hat, wenn ich ihn nur geringfügig geändert habe.

To Do:
Wenn Du eine Website mit News hast und regelmäßig Posts aktualisierst, prüfe, ob Google sie schnell genug indexiert. Wenn nicht, kannst Du Dir sicher sein, dass “Google News” ungenutztes Potenzial birgt.

4. Klickrate und interne Links

Ist Dir aufgefallen, dass in dem vorherigen Zitat die Klickrate erwähnt wurde? “Next, the scheduler computes a new web crawl interval for the document based on its old interval and additional information, e.g., the document's importance (as measured by a score, such as PageRank), update rate and/or click rate.”

Dieses Zitat suggeriert, dass die Klickrate beeinflusst, wie oft eine URL gecrawlt wird.

Tun wir so, als hätten wir zwei URLs. Eine davon wird 100 Mal pro Monat von Google Nutzern besucht, während die andere 10.000 Mal pro Monat besucht wird. Unter ansonsten gleichen Bedingungen sollte Google die Seite mit 10.000 Aufrufen pro Monat öfter aufsuchen. Laut Patent spielt auch der PageRank hier eine Rolle. Das ist ein weiterer Grund, weshalb Du sicherstellen solltest, dass Du eine korrekte interne Linkstruktur verwendest, um die verschiedenen Teile Deiner Domain zu verknüpfen.

To Do:
Können Google und Nutzer leicht auf die wichtigsten Abschnitte Deiner Website zugreifen?
Können alle wichtigen URLs erreicht werden? Es reicht nicht aus, wenn alle Deine URLs nur über die Sitemap verfügbar sind.

5. Nicht alle Links sind aus dem selben Holz geschnitzt

Wir haben gerade herausgefunden, dass der PageRank laut der Google Patente das Crawling stark beeinflusst. Die erste Implementierung des PageRank-Algorithmus war, zumindest nach den heutigen Standards, nicht ausgereift. Er war relativ einfach: Wenn Du einen Link von einer *wichtigen* Seite erhalten hast, wurdest Du höher gerankt als andere Seiten. Die erste Implementierung fand allerdings schon vor 20 Jahren statt. Google hat sich seitdem stark verändert.

Ich habe interessante Patente gefunden, wie beispielsweise “Ranking documents based on user behavior and/or feature data”, das zeigt, dass sich Google durchaus bewusst ist, dass manche Links auf einer Seite prominenter platziert sind als andere. Google kann diese Links daraufhin unterschiedlich behandeln.

“This reasonable surfer model reflects the fact that not all of the links associated with a document are equally likely to be followed. Examples of unlikely followed links may include "Terms of Service" links, banner advertisements, and links unrelated to the document.”

Google analysiert Links also basierend auf deren verschiedenen Features, wie beispielsweise Schriftgröße oder Linkplatzierung.

“For example, model generating unit may generate a rule that indicates that links with anchor text greater than a particular font size have a higher probability of being selected than links with anchor text less than the particular font size. Additionally, or alternatively, model generating unit may generate a rule that indicates that links positioned closer to the top of a document have a higher probability of being selected than links positioned toward the bottom of the document.”

Es scheint sogar so zu sein, dass Google Regeln erstellt, um Links auf der Website-Ebene zu bewerten. Google kann beispielsweise erkennen, dass Links unter “Mehr Top Stories” öfter geklickt werden, und diesen somit mehr Gewicht zuteilen.

“(...) model generating unit may generate a rule that indicates that a link positioned under the "More Top Stories" heading on the cnn.com web site has a high probability of being selected. Additionally, or alternatively, model generating unit may generate a rule that indicates that a link associated with a target URL that contains the word "domainpark" has a low probability of being selected. Additionally, or alternatively, model generating unit may generate a rule that indicates that a link associated with a source document that contains a popup has a low probability of being selected.”

Als Randnotiz: In einer Unterhaltung mit Barry Schwartz und Danny Sullivan im Jahr 2016 hat Gary Illyes bestätigt, dass Google den Links ein Label zuteilt, wie “von Penguin betroffen” oder “Footer”.

“Basically, we have tons of link labels; for example, it’s a footer link, basically, that has a lot lower value than an in-content link. Then another label would be a Penguin real-time label.”

Was Du Dir also merken solltest:
1. Google teilt jeder gecrawlten Seite Prioritäten zu.
2. Je schneller die Website, umso schneller kann Google sie crawlen.
3. Google wird nicht jede URL crawlen und indexieren. Nur URLs, deren zugeteilte Priorität über dem Schwellenwert liegt, werden gecrawlt.
4. Links werden anders behandelt, je nach Features und Platzierung.
5. Google indexiert eine Seite nach jedem Crawl nicht neu. Es kommt darauf an, wie schwerwiegend die Änderungen sind, die vorgenommen wurden.

Fazit

Wie Du sehen kannst, ist das Crawling bei Weitem kein simpler Prozess, bei dem der Googlebot allen Links folgt, die er finden kann. Er ist sehr kompliziert und hat eine direkte Auswirkung auf die Sichtbarkeit jeder Website. Ich hoffe, dass dieser Artikel Dir dabei hilft, das Crawling etwas besser zu verstehen, und dass Du dieses Wissen nutzen kannst, um die Art und Weise zu verbessern, wie der Googlebot Deine Website crawlt. Sichere Dir ein besseres Ranking!

Finde Optimierungspotential auf Deiner Website

Teste jetzt den Ryte Free Account

Veröffentlicht am Sep 2, 2020 von Tomek Rudzki

Tomek Rudzki

Tomek is strongly focused on technical SEO and making our clients' websites more visible in Google. He is interested in data analysis and trying to combine data from different sources. Tomek enjoys challenges. He says: “I am not afraid of messy websites. The worse the website is, the more we can do to help it rank better.” In his spare time, he enjoys cycling, hiking, and programming in Python. He is also learning JavaScript to understand the needs of modern websites better.

Ryte-Nutzer erzielen +93% Klicks nach 1 Jahr. Erfahre wie!

Demo buchen