Eine XML-Sitemap ist eine einfache Liste von URLs, die man Suchmaschinen übermittelt. Sie dient als wertvolles Instrument um Indexierungsprobleme zu identifizieren.
In diesem Artikel erfährst Du, wie man mit einer guten Sitemap-Struktur Indexierungsprobleme schnell erkennt und die Ursachen mithilfe von Ryte erfolgreich identifiziert.
John Müller hat in einem Google Webmaster Central Spechstunden Hangout erklärt, dass Seiten unter 10.000 URLs über keine allzu tiefe Seitenstruktur verfügen. Vor dem Hintergrund dieser Aussage, dass Google kleinere Webseiten ohne größere Umstände vollständig indexieren könne, erscheint es zunächst nicht notwendig eine XML-Sitemap zu hinterlegen.
SEOs sollten jedoch, unabhängig von der Größe einer Seite, eine oder mehrere XML-Sitemaps für verschiedene Bereiche der Webseite bereitstellen, um Indexierungsschwächen in diesen Bereichen schnell zu identifizieren und rechtzeitig Gegenmaßnahmen einzuleiten.
Für die Indexierung an sich spielt es keine Rolle wie XML-Sitemaps aufgebaut sind. Um Schwächen in der Webseitenstruktur zu identifizieren, ist es hingegen sehr wichtig eine geeignete Sitemap Struktur zu wählen. Diese hilft dabei, Indexierungsprobleme auf bestimmte Bereiche einzugrenzen.
Segmentiere Sitemaps nach Seitentypen, Bereichen, Produkten usw. logisch, um Schwächen bei der Indexierung schnell einem bestimmten Bereich zuordnen zu können.
Überschreite nicht die maximale Größe einer Sitemap (50.000 URLs oder bis 10MB im unkomprimierten Zustand). Teile die URLs auf verschiedene Sitemaps auf.
Setze eine Sitemap Indexdatei bei vielen Sitemaps ein.
Halte die Anzahl der URLs pro Sitemap gering, um Indexeriungsprobleme besser zu identifizieren.
Liste nur indexrelevante URLs (Status Code „200ok“, meta-robots: index, keinen oder selbstreferenzierenden Canonical-Tag) auf.
Verwende nur URLs, die nicht via robots.txt gesperrt sind.
Erstelle eine eigene Sitemap oder Sitemap-Struktur pro Domain bzw. Subdomain.
Hinterlege weiterführende Informationen zu URLs nicht in der Sitemap, sondern direkt bei der URL z.B. üder hreflang oder lastmodified.
Verwende nur absolute URLs.
Vermeide wenn möglich GET-Parameter. Tracking und Filter Parameter haben nichts in der Sitemap zu suchen.
Ein Webblog lebt und wächst durch neue Posts. In der Regel werden die letzten 10 Posts auf der Startseite dargestellt. Mit jedem neuen Post wird ein älterer Post dann auf die nächste Seite verschoben. Dies passiert nicht nur auf der Startseite, sondern auch bei den Kategorien und den Tag Seiten. Durch dieses System stehen zwar die neuesten Artikel auf der Startseite immer ganz oben, ältere Artikel wandern jedoch kontinuierlich weiter nach hinten. Ohne ein geeignetes System für die interne Verlinkung kann sich der Klickpfad für einen älteren Post mit jedem neuen veröffentlichen Artikel verlängern.
Um Probleme bei der Indexierung durch interne Verlinkung zu identifizieren, empfiehlt es sich pro Monat eine Sitemap nur für Blogposts zu erstellen z.B. sitemap-post-mmyy.xml.
Sollte man in regemäßigen Abständen auch statische Seiten (Pages) veröffentlichen, kann man diese Logik schnell adaptieren.
Die Sitemap könnte dann wie folgt lauten: sitemap-page-MMYY.xml
Ein typisches Merkmal von Onlineshops ist die große Anzahl an Produkten. Häufig stammen deren Beschreibungen aus Datenfeeds, die die zum Produkt passenden Bilder und Detailtexte liefern. Das führt dazu, dass unzählige Onlineshops ein und dieselbe Produktbeschreibung verwenden. Die Folge daraus ist die Entstehung von Duplicate Content. Seiten die keinen einzigartigen Inhalt bereitstellen sind nicht indexrelevant und sollten daher nicht in einer XML-Sitemap aufgeführt werden.
Handelt es sich hingegen um einzigartige Seiten mit individuellen Produktinformationen, lohnt es sich für den Onlineshop diese URLs in einer XML-Sitemap bereitzustellen. Es empfiehlt sich, die URLs nach bestimmten Kategorien zu clustern und anschließend in entsprechenden Sitemaps zusammen zu stellen. Geeignete Kategorien für einen Onlineshop könnten sein:
Thema/Kategorie z.B. Hosen, Schuhe usw.
Marke z.B. Adidas, Puma, Nike usw.
Seitentyp bzw. Template: Kategorieseite, Landingpage usw.
Aufnahmedatum nach Tag, Woche, Monat oder Jahr
TopSeller
Der erhöhte Aufwand, der durch eine detaillierte Clusterung der URLs und die Erstellung einer komplexen Sitemap Struktur entsteht, zahlt sich spätestens nach dem Einreichen der Sitemap bei der Suchmaschine aus.
Reicht man in der Google Search Console eine Sitemap ein, erhält man kurze Zeit später eine Information über den Indexierungsgrad der URLs in der jeweiligen Sitemap.
Abbildung 1: Anzahl der eingereichten Sitemaps und indexierten URLs pro Sitemap in der Google Search Console
Je transparenter die Sitemap-Struktur, desto einfacher ist es anschließend, Indexierungsprobleme gezielt auf die betroffenen Teile der Webseite einzuschränken. Teilt man die URLs der Webseite beispielsweise nach Verzeichnissen unter verschiedenen Sitemaps auf, kann man über die Google Search Console sofort erkennen, welche Verzeichnisse verhältnismäßig langsam in den Suchmaschinenindex aufgenommen werden. Man kann den Ursachen für Indexierungsschwierigkeiten gezielter und effektiver auf den Grund gehen, wenn man weiß, welche Bereiche betroffen sind.
Tipp: Für eine bessere Übersicht empfiehlt es sich, den Indexierungsgrad mithilfe eines Netz-Diagrams in Excel zu visualisieren.
Abbildung 2: Anzahl der indexierten URLs / eingereichten URLs = Indexierungsgrad pro Sitemap
Bei einer gut gepflegten Webseite sollte das Ziel sein, dass alle eingereichten URLs in den Google Index aufgenommen werden. Das würde einem Indexierungsgrad von 100% entsprechen. Fällt der Indexierungsgrad der Sitemaps geringer aus, können mehrere Ursachen dem Problem zu Grunde liegen.
Ein Indexierungsgrad von 100% kann nur erreicht werden, wenn ausschließlich valide und indexierbare Inhalt in der Sitemap aufgeführt werden. Je besser die XML-Sitemap gepflegt ist, desto höher der erreichbare Indexierungsgrad.
Häufige Fehler in der XML-Sitemap können mithilfe von Ryte Website Success einfach identifiziert werden.
1. Status Code der Inhalte ist nicht "200 OK"
Eine gut gepflegte XML-Sitemap bietet Suchmaschinen eine Liste valider und indexrelevanter URLs an. Es ist stets darauf zu achten, dass alle in der Sitemap augeführten Inhalte erreichbar sind. Um die Erreichbarkeit der XML-Sitemap Inhalt zu überprüfen wählt man im Website Success den Report "Status Codes der Inhalte" aus.
Defekte oder weitergeleitete Seiten können mithilfe der praktischen Filterfunktion einfach analysiert werden. Dafür klickt man auf die gelb und rot markierten Bereiche. In der darunter stehenden Tabelle werden die entsprechenden URLs angezeigt, die den ausgewählten Kriterien entsprechen. Zusätzlich findet man eine Information bezüglich der Sitemap-Datei, in der die URL enthalten ist.
2. Sitemap enthält nicht-indexrelevante Inhalte
Nicht-indexrelevante URLs haben in einer XML-Sitemap Datei keine Berechtigung. Die Überprüfung jeder einzelnen in der Sitemap enthaltenen URL auf deren Indexierbarkeit ist komplex und aufwendig.
Ryte erspart Dir diesen Aufwand und zeigt mit wenigen Klicks, ob nicht-indexierbare Seiten in der XML-Sitemap enthalten sind. Dazu wählt man den Report "In Sitemaps hinterlegt" in der Kategorie "Sitemap" und aktiviert einen manuellen Filter über einen Klick auf den Button "Neuer Filter"-Button. In der Filtermaske wird anschließend die Kategorie "Indexierbarkeit" mit der Option "Nur nicht indexierbare Seiten/Dateien" ausgewählt und angewendet. Der Report zeigt nun alle URLs an, die nicht indexierbar sind. Durch einen Klick auf den Graphen "enthalten", werden ausschließlich Seiten angezeigt, die in der XML-Sitemap vorhanden sind, deren Inhalt jedoch nicht indexierbar ist.
Abbildung 3: Nicht-indexierbare Seiten in der XML-Sitemap identifizieren
3. Es werden nicht alle relevanten Inhalte in der XML-Sitemap aufgeführt
Je komplexer die Webseitenarchitektur und je größer der Webseitenumfang, desto schwieriger wird es, alle indexrelevanten URLs in die XML-Sitemap aufzunehmen. Besonders neue oder nicht ausreichend verlinkte Inhalte sind anfällig dafür, übersehen oder vergessen zu werden. Mit Ryte kann man schnell die Seiten identifizieren, die nicht in einer XML-Sitemap enthalten sind.
Erstelle dafür im Report "In Sitemaps hinterlegt" einen Filter der Kategorie "Indexierbarkeit" mit der Option "nur indexierbare Inhalte/Dateien" und klicke anschließend auf den Graph "nicht beinhaltet". So erhält man eine Liste aller indexrelevanten URLs, die noch in die XML-Sitemap aufgenommen werden sollten.
Abbildung 4: Indexrelevante URLs identifizieren, die noch nicht in der Sitemap enthalten sind
Weiterführende Tipps zur Indexierung und Details zur XML-Sitemap erhaltest Du in diesem Ryte Magazine Artikel.
Durch eine intelligente und zielorientierte XML-Sitemap Struktur kann man über die Google Search Console den Indexierungsgrad aller Bereiche einer Webseite messen und Defizite schnell identifizieren. Die dabei gewählte Struktur kann von einer einfachen 1:1 Kopie der Informationsarchitektur der Webseite bis hin zu komplexen Strukturen und speziellen Sitemaps für Onlineshops reichen.
Achte bei der Wahl der XML-Sitemap darauf, eine Form zu wählen, die zur Webseite passt und potentielle Schwachpunkte der Seite widerspiegeln kann.
Veröffentlicht am Aug 11, 2016 von Stephan Walcher