« Zurück zum Magazine

Hilf Google beim Crawling: Wichtige Tipps für die Indexierung

Erleichtere Google die Arbeit und die Suchmaschine wird Deine Webseite lieben. Wir zeigen Dir die wichtigsten Tipps für eine schnellere Indexierung und effizientes Crawling.

Zeit ist ein wichtiges Gut und immer knapp bemessen. Auch der Googlebot hat nur ein begrenztes Zeit- und somit Crawlbudget. Da der Bot jedoch über die Aufnahme Deiner Webseite in den Google-Index entscheidet, musst Du es ihm so einfach wie möglich machen. Wir geben Dir heute wichtige Tipps für eine optimale Indexierung Deiner Inhalte in Suchmaschinen an die Hand und zeigen Dir, wie Du Deine Seite aufräumen kannst, damit Google Deine Seite leichter indexieren kann.

Deine Webseite als Haus auf der Landkarte

Wenn man das Internet mit einer großen Landkarte vergleicht, auf der eine Domain einem einzelnen Haus entspricht, das auf dieser Landkarte gebaut wird, gleichen einzelne Unterseiten dieser Domain den Zimmern oder Etagen eines Hauses. Der Googlebot ist in dieser Welt ein Besucher Deines Hauses. Je mehr Türen ihm offen stehen und je besser strukturiert Deine Webseite ist, desto einfacher kann dieser Besucher Deine Seite nach Inhalten durchsuchen und diese für einen späteren Besuch abspeichern. Denn das ist eine der Hauptaufgaben des Googlebots: URLs folgen und URLs speichern.

Wenn der Googlebot Deine Webseite nicht indexieren kann, erscheinen auch keine Links zu Deinen Seiten in den Google SERPs. Dies bedeutet, dass man Deine Seite nicht mit Google finden kann. Auch wenn der Googlebot auf verwaiste Seiten trifft oder Deine Unterseiten falsche HTTP Status Codes zurückgeben, kann dies dazu führen, dass der Googlebot diese URLs nicht an den Index übermittelt. Im Extremfall wird der Googlebot die betreffenden Seiten nicht mehr crawlen.

Wenn der Googlebot Deine Webseite besucht

Einer der ersten Schritte führt den Googlebot zur sogenannten robots.txt-Datei. In dieser Datei gibst Du an, welche Bereiche Deiner Webseite der Googlebot besuchen darf und welche nicht. Danach hinterlegst Du diese Datei auf Deiner Webseite, z.B. so www.meineseite.de/robots.txt. Wie Du eine robots.txt erstellst, kannst Du hier im Ryte Wiki nachlesen.

In der robots.txt sollte auch die URL zu Deiner XML-Sitemap hinterlegt sein. Das ist die Datei, in der Du dem Googlebot alle URLs Deiner Internetseite maschinenlesbar auflisten kannst. Deshalb zeigen wir Dir im nächsten Step, wie Du eine XML-Sitemap erstellen und nutzen kannst.

Google zeigen, was Du hast: so reichst Du eine XML-Sitemap ein

Damit der Googlebot alle Deine wichtigen Seiten indexieren kann, verwendest Du am besten eine fehlerfreie XML-Sitemap. Darin übermittelst Du alle URLs Deiner Webseite.

Eine XML-Sitemap als maschinenlesbares Dokument sollte folgende Elemente enthalten:

Abbildung 1: Pflicht-Tags für die XML Sitemap

Neben den Pflicht-Tags kann Deine Sitemap auch noch weitere Tags enthalten.

  • Hier kannst Du im Format JJJJ-MM-TTThh:mmTZD angeben, wann die Sitemap letztmalig modifiziert wurde

  • Damit gibst Du dem Googlebot einen Hinweis darauf, wie oft die Sitemap voraussichtlich modifiziert wird. Mögliche Werte sind: always (die Seite wird dann bei jedem Zugriff verändert), hourly (stündlich), daily (täglich), weekly (wöchentlich), monthly (monatlich), yearly (jährlich), never (nie; verwendbar für URLs, die im Archiv liegen). Dieses Tag solltest Du nur dann verwenden, wenn Du es jeder URL passend zuordnen kannst. Es soll dem Crawler zeigen, dass sich Inhalte ändern und er die betreffende Seite häufiger besucht. Es würde keinen Sinn ergeben, wenn Du das Tag „changefreq always“ für alle URLs Deiner Webseite verwendest.

  • Mit diesem Tag kannst Du Prioritäten für das Crawling Deiner URLs vergeben. Der Wert 1.0 steht für höchste Priorität, 0,1 für geringste Priorität.

Wichtig: Die Verwendung der Tags für Änderungsfrequenz und Priorität hat keinen Einfluss auf die Rankings Deiner Webseite. Sie dienen lediglich dazu, die Arbeit des Googlebots effizienter zu steuern.

Soweit die Theorie. Jetzt geht es zur Praxis: Dem Erstellen der Sitemap.

Bei den meisten Webseiten wäre es natürlich ein extrem langes Unterfangen, eine solche Datei von Hand zu erstellen. Deshalb gibt es entsprechende Tools im Web, die Du hier findest:

Einige CMS verfügen bereits über eine Funktion, mit der Du eine XML-Sitemap per Klick erstellen kannst. Diese kannst Du natürlich auch verwenden.

Worauf Du bei Deiner Sitemap achten solltest

Wenn Du Google die URLs Deiner Webseite über die Sitemap mitteilst, musst Du einiges beachten, damit keine Fehler auftreten und die Sitemap korrekt ausgelesen werden kann. Üblicherweise erzeugen gängige Sitemap-Generatoren oder Dein CMS korrekte XML-Sitemaps. Dennoch solltest Du im Anschluss folgende Aspekte Deiner Datei überprüfen.

Checkliste für die korrekte Erstellung einer Sitemap:

  • Die Codierung der Sitemap muss immer in UTF-8-Format erfolgen.

  • Umlaute und Sonderzeichen in URLs müssen in Escape-Codes umgewandelt werden. Die URL www.meineseite.de/büro wird dann als www.meineseite.de/b%FCro in der Sitemap aufgeführt.

  • Die URLs müssen eine einheitliche Syntax aufweisen. Wenn Deine Seite vorwiegend über http://www.meineseite.de erreichbar ist, sollten in der Sitemap keine Unterseiten im Format http://meineseite.de oder https://www.meineseite.de aufgeführt werden.

  • In den in der Sitemap übermittelten URLs dürfen keine Session-IDs vorkommen. Diese IDs werden üblicherweise an die eigentliche URL angehängt, um User während ihres Besuchs eindeutig zuordnen zu können.

  • Wenn Deine Seite in mehreren Sprachen verfügbar ist, sollte dies in der Sitemap per hreflang-Tag vermerkt sein.

Beispiel:

Jetzt hast Du die Basics für das Erstellen einer Sitemap bekommen. Es gibt jedoch noch zwei weitere Sonderformen, auf die wir Dich aufmerksam machen wollen: Sitemaps, die vom Standard abweichen.

Sonderfälle: Sitemaps für Videos, Bilder, mobile Webseiten oder News

Über die XML-Sitemap kannst Du nicht nur URLs für Unterseiten Deiner Webseite auflisten, sondern auch Verweise auf Videos, Bilder, mobile URLs oder News. Am wichtigsten ist es dabei, dass Du diese Inhaltstypen innerhalb des Tags in der jeweiligen Sitemap markierst.

Abbildung 2: Sonderfälle für die Sitemap

Wenn Deine Webseite über viele Bilder verfügt, empfehlen wir Dir, auch eine Bilder-Sitemap zu erstellen. Gleiches gilt für Videos. Eine Sitemap für News ist nur dann wichtig, wenn Du mit Deiner Webseite in den Google-News erscheinen möchtest. Damit Du für das Google-News-Programm aufgenommen wirst, gelten besondere Voraussetzungen, die Du hier findest.

Kommen wir jetzt zum nächsten Punkt: Der Sitemap-Erstellung für sehr große Webseiten.

Sitemaps für große Webseiten splitten

Wenn Du sehr viele URLs in einer Sitemap auflisten möchtest, empfiehlt es sich diese in mehrere kleine Sitemaps zu unterteilen. Grundsätzlich gilt für jede Sitemap, dass sie kleiner als 50 Megabyte sein und nicht mehr als 50.000 URLs enthalten sollte.

Bei mehreren Sitemaps erstellst Du am besten eine Sitemaps-Index-Datei, die Du dem Googlebot übergibst. Diese sieht dann bei drei Sitemaps folgendermaßen aus:

Wichtig ist hier, dass die zentrale Datei mit dem sitemapindex-Tag versehen wird. Darüber hinaus musst Du mit dem Tag jeweils angeben, wo Du die jeweilige Sitemap gespeichert hast. Optional ist auch hier die Angabe der letzten Änderung der Sitemap-Dateien.

Jetzt hast Du nahezu alle Szenarien kennengelernt. Kommen wir nun zum praktischen Schritt: Dem Einreichen der Sitemap.

So reichst Du Deine Sitemap in der Google Search Console ein

Speichere zunächst Deine Sitemap, Deine Sitemaps oder Deine Index-Datei auf Deinem Server ab, sodass die Dateien über eine feste URL abgerufen werden können. Kopiere diese URLs.

Melde Dich dann in der Google Search Console an.

Wenn Du bisher noch keine Sitemap verwendet hast, klickst Du auf "keine Sitemaps" im rechten Bereich des Search Console-Dashboards.

Abbildung 3: Sitemaps einrichten

Klicke auf der nächsten Seite auf den roten Button "Sitemap hinzufügen/testen".

Gib dann den Pfad zu der hinterlegten Sitemap-Datei an.

Wenn Du Deine Sitemap zuvor erst einmal auf Fehler testen möchtest, klickst Du auf "Sitemap testen". Dann erhältst Du im Anschluss eine Auswertung der Datei mit Hinweisen zu möglichen Fehlern, ohne dass die Datei an den Googlebot übergeben wird.

Das könnte dann u.a. so aussehen:

Abbildung 4: Sitemap Fehlerübersicht

Wenn alles korrekt ist, reichst Du Deine Sitemap vollständig ein.

Wichtig: Hinterlege die Sitemap-URL auch in Deiner robots.txt-Datei, damit der Googlebot diese vor dem Crawlen Deiner Seite abrufen kann.

Wie eine robots.txt mit Verweis auf die Sitemap aussehen kann, siehst Du hier:

Wichtig ist, dass Deine Sitemap immer aktuell ist. Aktualisiere die XML-Datei also immer, wenn sich URLs auf Deiner Seite geändert haben oder neue URLs hinzugekommen sind. Das Prinzip der Aktualität gilt übrigens auch für Deine Seite. Im nächsten Abschnitt zeigen wir Dir deshalb, wie Du Deine Seite aufräumen kannst, indem Du Dich um verwaiste Seiten und um 404-Fehlerseiten kümmerst.

Regelmäßiges Aufräumen

Wenn Du dem Googlebot mit der Sitemap all Deine URLs zeigst, solltest Du auch dafür sorgen, dass deren Inhalte immer aktuell und abrufbar bleiben. Denn wenn der Googlebot häufiger auf 404-Fehlerseiten stößt, kann dies dazu führen, dass Deine Unterseiten nicht mehr von Suchmaschinen indexiert werden. Bei verwaisten Seiten kann es vorkommen, dass der Bot diese gar nicht findet und sie deshalb auch nicht an den Index übermitteln kann.

404-Seiten finden

Wenn ein User auf eine URL zu Deiner Seite klickt, die jedoch nicht mehr existiert, gibt Dein Server üblicherweise einen 404-Statuscode (not found) aus. Das ist für jeden Besucher und Deine SEO unbefriedigend. Auch der Googlebot verschwendet durch den Besuch dieser Seiten unnötige Ressourcen. Versuche deshalb, diese 404-Fehlerseiten zu beseitigen.

Gehe am besten folgendermaßen vor.

Mit den Google Search Console findest Du alle 404-Fehler unter dem Abschnitt "Crawling", wenn Du auf "Crawling-Fehler" klickst.

Crawling-Fehler

Abbildung 5: 404-Fehlerseiten finden

Auch mit Ryte kannst Du 404-Fehler identifizieren. Klicke hierfür im Modul Website Success auf "Indexierbarkeit" und dann auf "Status Codes".

status

Abbildung 6: 404-Fehler über Status Codes finden

Prüfe jetzt diese Seiten.

  • Sind die Inhalte der „alten“ URL auf einer „neuen“ URL erreichbar? Dann kannst Du die alte URL bequem per 301-redirect auf die neue URL umleiten. Theoretisch kannst Du diesen Schritt auch beim Umleiten auf ähnliche Inhalte Deiner Domain durchführen.

  • Kannst Du die URLs nicht umleiten? Dann solltest Du eine ansprechende Fehlerseite gestalten. Gib dem User die Möglichkeit, auf Deiner Seite weiterzusuchen oder liefer ihm Empfehlungen zu ähnlichen Themen oder Unterseiten.

Verwaiste Seiten

Verwaiste Seiten können das Crawling des Googlebots auf Deiner Webseite unterbrechen. Denn bei diesen Seiten handelt es sich um Webseiten, die weder über eingehende Links erreichbar sind, noch durch interne Links mit dem Rest Deiner Webseite verbunden sind.

Das Auffinden von verwaisten Seiten ist ein bisschen aufwändig. Hierfür sollten Webmaster eine Liste mit allen URLs der Webseite erstellen und diese mit den tatsächlich gecrawlten URLs vergleichen.

Da verwaiste Seiten nicht von Crawlern gefunden werden, kannst Du nur durch Gegenüberstellen Deiner Liste mit der Crawl-Liste die Seiten herausfiltern, die nicht gecrawlt wurden und folglich verwaist sind.

Es gibt unterschiedliche Gründe für verwaiste Seiten. Wenn Du solche Unterseiten findest, die durch fehlerhafte, interne Links zustande kommen, solltest Du schnellstens die internen Links korrigieren.

Wenn Du verwaiste Seiten findest, die zusätzlich keine oder fehlerhafte Inhalte darstellen, kannst Du diese Seiten löschen.

Sowohl beim Beheben von 404-Fehlerseiten als auch nach dem Beseitigen von verwaisten Seiten solltest Du Deine XML-Sitemap aktualisieren. Indem Du den Google Index prüfst, sorgst Du dafür, dass die Indexierung Deiner Webseite optimiert wird und nur funktionierende Inhalte in den Google-Index gelangen.

Wenn Du die Indexierung Deiner Webseiten durch Aufräumen und das Einreichen einer Sitemap optimierst, fehlt jetzt noch ein weiterer wichtiger Schritt, der gerne vergessen wird: das Monitoring. Zu diesem Aspekt kommen wir jetzt im letzten Abschnitt.

Dauerhaftes Monitoring

Es ist wichtig, dauerhaft zu beobachten, wie Google Deine Seite indexiert. So kannst Du bei Fehlern schnell reagieren und verhindern, dass Deine Seite Rankings verliert oder Teile nicht indexiert werden.

Um den Status Deiner indexierten Seiten zu beobachten, kannst Du die Google Search Console verwenden.

Melde Dich über Dein Google-Konto an und klicke dann auf der linken Seite auf den Menüpunkt "Google-Index" und anschließend auf "Indexierungsstatus". Dann erhältst Du einen Überblick über den Verlauf der Google-Indexierung Deiner Webseite.

Abbildung 7: Indexierungsstatus

Wenn Du hier entdeckst, dass Die Anzahl Deiner indexierten Seiten rapide abnimmt, obwohl Du stets neue Inhalte und somit auch Seiten produzierst, solltest Du den Ursachen auf den Grund gehen.

Auch wenn Google keine Garantie dafür gibt, dass die über die XML-Sitemap eingereichten URLs auch wirklich indexiert werden, solltest Du zusätzlich auch das Verhältnis der eingereichten gegenüber den indexierten Seiten im Auge behalten. Liegt hier die Zahl der eingereichten URLs deutlich über den tatsächlich indexierten, können auch Fehler auf Deinen Seiten vorliegen, die Google am Indexieren hindern.

Melde Dich in der Search Console an. Dann siehst Du bereits im rechten oberen Bereich "Sitemap", wie viele eingereichte Seiten tatsächlich indexiert wurden. Durch Klick auf "Sitemap" kommst Du zur Übersicht über Deine eingereichten Sitemaps.

Abbildung 8: Übersicht eingereichter Sitemaps

Bei der Fehlersuche helfen Die folgenden Anhaltspunkte weiter:

  1. Prüfe Deine robots.txt. Werden hier wichtige Seitenbereiche ausgeschlossen?

  2. Prüfe die korrekte Verwendung von Canonical-Tags. Verweisen Deine Canonical-Tags jeweils auf die korrekte Seite? Verwendest Du die gleiche Syntax?

  3. Prüfe, ob Du das noindex-Tag korrekt verwendest. Schließt Du dadurch eventuell Unterseiten Deiner Webseite aus?

Sporadisch kannst Du auch durch eine Site-Abfrage über die Google-Suche nachschauen, ob einzelne Seiten von Dir im Index sind.

In die Suchleiste gibst Du dann ein: site:www.meineseite.de/unterseite Nach dem Klick auf "Suchen" erscheint Deine Seite mit einem Snippet in den SERPs, wenn sie indexiert ist.

Es ist wichtig, dass Du den Indexierungsstatus Deiner Seite regelmäßig überprüfst, nachdem Du Änderungen an der Webseite vorgenommen hast oder neue URLs hinzugefügt wurden. Doch auch unabhängig von großen Änderungen auf der Webseite ist es wichtig, wenn Du Dir einen Plan fürs Monitoring erstellst und im wöchentlichen Rhythmus in die Search Console schaust.

Ryte ist auch hilfreich für das Monitoring Deiner Seite. Wenn Du den Menüpunkt "Indexierbarkeit" aufrufst und dann auf "Robots.txt" klickst, erhältst Du sofort alle Unterseiten Deiner Domain, die von der robots.txt geblockt werden.

robots

Abbildung 9: Ryte Robots.txt Feature

Ebenso kannst Du auch überprüfen, ob einzelne Unterseiten Deiner Webseite auch in Deiner Sitemap-Datei aufgeführt werden. Klicke hierzu im Report "Sitemap" auf den Unterpunkt "In Sitemaps hinterlegt".

sitemap

Abbildung 10: Einzelne Unterseiten mit Ryte überprüfen

Fazit

Wir haben Dir heute gezeigt, wie Du die Indexierung Deiner Webseite mit Hilfe der Sitemap und durch Aufräumen optimieren kannst. Dabei haben wir Dir alle wichtigen Aspekte für das Erstellen der Sitemap erläutert. Außerdem haben wir Dir gezeigt, wie Du 404-Fehlerseiten und verwaiste Seiten findest und warum es wichtig ist, diese zu bearbeiten.

Denke aber immer daran, dass eine korrekte Sitemap keine Garantie für gute Rankings ist. Du erleichterst dem Googlebot lediglich die Arbeit und kannst sein Crawl Budget optimal verwalten. Dadurch vereinfachst Du die Indexierung und schaffst so die Voraussetzung dafür, dass Deine Seite gute Rankings erhalten kann. Beim Aufräumen Deiner Seite schaffst Du jedoch neben einer Zeitersparnis für den Bot zusätzlich Mehrwert für Deine User und hilfst ihnen, bei Dir das zu finden, was sie suchen. Und das ist schließlich das Kernziel der Suchmaschinenoptimierung. In diesem Sinne: Happy Optimizing!

Überprüfe jetzt Deine Robots.txt mit Ryte und hilf Google beim Crawling

Veröffentlicht am Dec 1, 2014 von Irina Hey