Crawling Ressourcen

Crawling Ressourcen ergeben sich aus der Tatsache, dass Suchmaschinen sogenannte „Crawling-Budgets“ anwenden. Crawler durchsuchen das Internet automatisiert nach bestimmten, vorgegebenen Arbeitsschritten. Dabei wird ein zuvor definierter Katalog erstellt. Crawling Ressourcen sind den begrenzten Möglichkeiten geschuldet, Seiten im Netz zu durchsuchen.

Allgemeine Informationen zum Thema

Google crawlt täglich die Inhalte unzähliger Websites. Die dafür eingesetzten Crawler kopieren die bei der Suche gewonnenen Daten in eine Datenbank. So entsteht ein Index aller Wörter, die auf der betreffenden Website verwendet werden.

Wie oft und in welchem Ausmaß Websites durchsucht werden, hängt von den dabei verwendeten Algorithmen ab. Je wichtiger die Seite eingestuft wurde, desto häufiger wird sie gecrawlt. Dennoch müssen die Suchmaschinen Crawling-Ressourcen sparen und haben das oben genannte Crawling-Budget eingerichtet. Das hängt mit natürlichen Grenzen zusammen, denn da das Internet im Laufe der Zeit enorm gewachsen ist, kann nicht jede Seite mit ihren Unterseiten täglich untersucht werden.

Wie groß die Crawling Ressourcen sind, hängt von unterschiedlichen Faktoren ab. Die Anzahl der gecrawlten Seiten richtet sich unter anderem nach den Ladezeiten von Websites. Je schneller diese sind, desto größer ist das jeweilige Crawling-Budget. Hilfe beim Crawlen bietet etwa die Sitemap XML, die dazu dient, Hinweise darauf zu geben, welche einzelnen Seiten einer Website überhaupt wichtig sind und gecrawlt werden sollen. Dabei handelt es sich allerdings nur um Empfehlungen, die an die Suchmaschinen-Bots weitergegeben werden. Man kann aber auch klare Befehle erteilen, die festlegen, welche Seiten vom Crawling ausgeschlossen werden sollen. Diese Befehle werden über „robots.txt“ erteilt[1].

Schonen der Crawling Ressourcen

Um die Crawling Ressourcen zu schonen, bietet sich das Header-Datenfeld „If-Modified-Since“ an. Dies dient auch der Fokussierung auf bereitgestellte Ressourcen und auf angepasste bzw. aktualisierte Inhalte. Die Implementierung hat sowohl für Betreiber von Websites als auch für Google bzw. Suchmaschinen Vorteile. Denn durch If-Modified-Since lassen sich unnötige und aufwendige Datenübertragungen vermeiden bzw. eingrenzen. Google empfiehlt die Anwendung ausdrücklich und verspricht sich davon, dass weniger Daten verarbeitet werden müssen, die bereits bekannt sind. Stattdessen kann sich die Suchmaschine auf aktualisierte Daten konzentrieren und die Indexierung schneller anpassen.

Und so funktioniert If-Modified-Since:

  • Zunächst protokolliert der Google-Bot bzw. Client das Datum, an dem eine URL aufgerufen wird.
  • Bei erneuter Protokollierung sendet er innerhalb der Head Anfrage „If modified since“ (also ein entsprechendes Datum inklusive Uhrzeit und Zeitzone) an den Server.
  • Wenn das Dokument zwischen dem ersten und dem zweiten Besuch verändert wurde, schickt der Server die Antwort des HTTP Status Codes „200“. Zudem wird ein vollständiger Response mit dem vollständigen Body gesendet.
  • Wenn das Dokument in der Zwischenzeit nicht verändert wurde, sendet der Server stattdessen den HTTP Status Code „304“.
  • Je häufiger die Antwort „304“ lautet, desto stärker geht der Umfang der übertragenden Daten zurück, die Crawler Ressourcen werden geschont.

If-Modified-Since zu verwenden, ist bei jeder Ressource sinnvoll. Bei kleineren Websites ist das Potenzial der Einsparungsmöglichkeiten jedoch eher gering. Spürbarer wird der Effekt bei größeren Websites, etwa bei umfangreichen Shops. Schließlich gilt es bei solchen Seiten, häufige Anpassungen vorzunehmen, zum Beispiel, um Artikellisten oder Produkte auf dem neuesten Stand zu halten. Typisch für die Anwendung von If-Modified-Since sind Detailseiten, die in der Summe meist nur wenig Veränderungen erfahren. Hier macht der Code „304“ also durchaus Sinn[2].

Ressourcenverschwendung durch Produktbilder

Nicht selten werden Produktbilder oder auch Versandbedingungen als Overlays in Websites eingeblendet. Overlays sind Teile von Computerprogrammen, die im Bereich des Arbeitsspeichers von mehreren Programmteilen gemeinsam genutzt werden. Sie werden dort geladen und ausgeführt. Daraus entstehen jedoch zwei Probleme.

Zum einen lassen sich lange Versandbedingungen hin und wieder auch bei der URL im Code wiederfinden. So ein Fall von wiederkehrenden und recht großen Textbausteinen schaden dem Ranking. Zum anderen werden Overlays auch immer wieder für Produktbilder eingesetzt. Das ist auf den ersten Blick gut und richtig, doch manchmal versteckt sich hinter so einem Overlay ein extra Frame, das mit einer zusätzlichen URL verbunden ist.

Wenn sich eine Slideshow in einem neuen Fenster öffnet, kann es bei einer großen Anzahl von Produkten dazu führen, dass sehr viele weitere URLs entstehen, die sich erstens sehr ähnlich sind und zweitens zu Duplicate Content führen. Dadurch werden Crawling Ressourcen zusätzlich verschwendet[3].

Bedeutung für das Development

Vor der Schonung der Crawling Ressourcen stehen die Indexierung und das Crawlen. Das Crawlen übernimmt das Erkennen und Sammeln von Seiteninhalten. Beim Indexieren werden die zuvor gesammelten und erkannten Inhalte normalisiert (im Sinne von: bereinigt), selektiert und im nächsten Schritt in den Index geschrieben.

Alles, was also nicht gecrawlt und durch das Indexieren herausgefiltert wurde, kann in der Folge nicht gefunden werden. Beide Vorgänge sind daher unverzichtbar, um mit seiner Website gefunden und gut gerankt zu werden. Die Schonung der Crawling Ressourcen ist generell zu empfehlen, wirkt aber bei großen und umfangreichen deutlich stärker als bei kleinen Seiten.


Einzelnachweise

  1. sitemap xml erstellen optimieren fehler beheben onlinesolutionsgroup.de Abgerufen am 04.06.2019
  2. if modified since crawling ressourcen fokussiert einsetzen olafpleines.de Abgerufen am 04.06.2019
  3. 5 seo fehler die du ganz leicht uebersiehst seokratie.de Abgerufen am 04.06.2019

Weblinks