Sitemap Index Files


Sitemap Index Files sind Indexdateien von Sitemaps, die den Umgang mit vielen Sitemaps erleichtern. Sitemap Index Files können als Verzeichnisse betrachtet werden, die Informationen über Websites in Form von XML für Suchmaschinen bereitstellen. Die Indexdateien beschreiben mithilfe von Deskriptoren mehrere Dokumente, damit Crawler und Bots von Suchmaschinen diese Dokumente und die darin enthaltenen Informationen schnell erfassen und automatisiert verarbeiten können. Sitemap Index Files basieren genauso wie Sitemaps auf der Auszeichnungssprache XML und werden dem Fachgebiet Information Retrieval zugeordnet. Sie sollen die Indexierung auf positive Weise beeinflussen, indem sie einem Crawler oder Bot mitteilen, wo er nach Sitemaps suchen soll und wann die Sitemaps das letzte Mal geändert worden sind.

Allgemeine Informationen zum Thema

Sitemap Index Files geben individuelle Eigenschaften der XML Dateien an, die als Sitemaps im UTF-8-Zeichensatz auf einem Server gespeichert sind. Dazu gehören der Ort der Datei, der Zeitpunkt der letzten Änderung sowie Informationen zur verwendeten Auszeichnungssprache. Eine Sitemap Index File darf nur bestimmte Informationen im XML-Format enthalten. Weder sind Listen von Seiten erlaubt noch Inhalte der eigentlichen Sitemaps (zum Beispiel URLs). Da eine einzelne Sitemap nicht mehr als 50.000 Einträge beinhalten darf, bieten sich Indexdateien für Websites mit sehr vielen URLs an. Die Inhalte einer Website können je nach Umfang mit mehreren Sitemaps strukturiert werden, bevor eine Indexdatei die Sitemaps für die Suchmaschine referenziert.

In der Regel kommen Verzeichnisdateien für Sitemaps bei der Verwendung von vielen einzelnen Sitemaps zum Einsatz, um die relevanten Informationen für Crawler und Bots vorzustrukturieren. Da sie auf XML basieren, sind diese Informationen in einer Baumstruktur angeordnet, die sich dank der speziellen Verschachtelung durch einen Crawler computergestützt auslesen lässt (Parsing). Die maximale Grenze an Indexdateien liegt bei 500 Sitemap Index Files, die Grenze für die maximale Größe der Verzeichnisse, die referenziert werden sollen, liegt ebenfalls bei 50.000 (oder 10 MB). Jede Sitemap Index File muss der Syntax von XML genügen und kann mit gzip komprimiert werden. Falls die Dateien vorher validiert werden sollen, muss ein Schema angegeben werden, gegen das die Dateien geprüft werden können.[1]

Funktionsweise

Die Struktur von Sitemap Index Files wird im Folgenden exemplarisch beschrieben, wobei diese Datei lediglich zwei Einträge für Sitemaps enthält:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

[2]

Sogenannte Tag Definitionen legen die erforderlichen und möglichen Elemente der Datei fest:

  • <sitemapindex>: Dieses Tag ist die Wurzel des Dokumentes. Es schließt alle Knoten und somit die Datei mit ein. Unter xmlns wird der sogenannte Namespace angegeben. Mit ihm lassen sich eigene Tagdefinitionen festlegen. Zudem wird diese Zeile zur Validierung und Prüfung der Struktur verwendet.
  • <sitemap>: Jede Sitemap, die referenziert werden soll, wird in dieses Tag eingeschlossen, das ein Kindelement von <sitemapindex> ist.
  • <loc>: Mit diesem Tag wird der Speicherort der Sitemaps angegeben. Der Speicherort ist als Tag dem Element <sitemap> untergeordnet.
  • <lastmod>: Das Tag <lastmod> gibt den Zeitstempel der letzten Änderung einer Datei an. Es ist optional, wird jedoch bei Verwendung dem Tag <sitemap> untergeordnet.[3]

Nach der Erstellung einer Sitemap Index File wird diese im Host-Verzeichnis des Servers gespeichert. Das Verzeichnis sollte alle Sitemaps enthalten, damit der Crawler weiß, wo er die Sitemaps finden kann. Anschließend kann die Sitemap Index File bei Suchmaschinen eingereicht werden. Dabei sind die Bedingungen der Suchmaschine zu beachten, da sich einzelne Details unterscheiden können. Bei Google ist das Speichern von Indexdateien zum Beispiel an Bestätigungen der Inhaberschaft von Websites in der Google Search Console gebunden, wenn verschiedene Websites von verschiedenen Domains referenziert werden sollen. In der Regel werden Indexdateien für Sitemaps jedoch von allen gängigen Suchmaschinen unterstützt.[4]

Ähnlich wie Sitemaps fördern Indexdateien die Syndikation von Daten. Bei sich ständig wechselnden, dynamischen Inhalten ist eine klare Struktur für Sitemaps deshalb angebracht. Dadurch dass Suchmaschinen diese Daten automatisch parsen, kann der Index der Suchmaschinen auf dem aktuellsten Stand gehalten werden. Eine Validierung gegen ein Schema macht Fehler in der Syntax oder den Attribut-Wert-Paaren deutlich. Zusätzliche Informationen im Header der Indexdatei geben die Instanz an, gegen die geprüft wird. Dies wird auch als Schema bezeichnet. Eine valide XML Datei wird auch als wohlgeformt bezeichnet, wenn sie syntaktisch keine Fehler aufweist.

Bedeutung für die Suchmaschinenoptimierung

Eine Sitemap einzureichen ist generell für jede Website sinnvoll. Sitemap Index Files sind hingegen nur für spezielle Anwendungsszenarien gedacht. In erster Linie sind damit große Websites mit vielen URLs und Inhalten gemeint, die durch eine Sitemap Index Datei strukturiert werden. Sowohl Suchmaschinen als auch Webmaster erhalten einen Überblick über alle Inhalte, URLs und die gesamte Informationsarchitektur. Suchmaschinen verwenden diese Daten zur Indexierung, weshalb eine transparente Herangehensweise empfehlenswert ist.

Webmaster können diese Daten jedoch auch anderweitig benutzen: Zum Beispiel für Reports und das Monitoring der Website. Anhand von Sitemap Index Files und Sitemaps lassen sich duplizierte Inhalte auffinden und Probleme mit der Indexierung beheben.[5] In jüngster Zeit wurden sogar Studien durchgeführt, die belegen, dass Sitemap Index Files den Traffic von Websites maßgeblich erhöhen können.[6] Zwar kann diese Aussage nicht verallgemeinert werden, aber eine klare Struktur von Sitemaps, URLs und Inhalten ist in jedem Fall sinnvoll.

Einzelnachweise

  1. Inside Google Sitemaps: Using Sitemap Index Files sitemaps.blogspot.de. Abgerufen am 06.09.2016
  2. Sitemaps XML format sitemaps.org. Abgerufen am 06.09.2016
  3. Verwaltung mehrerer Sitemaps vereinfachen support.google.com. Abgerufen am 06.09.2016
  4. Major Search Engines Unite to Support a Common Mechanism for Website Submission googlepress.blogspot.de. Abgerufen am 06.09.2016
  5. Optimize Your Sitemap Index blindfiveyearold.com. Abgerufen am 06.09.2016
  6. Multiple XML Sitemaps: Increased Indexation and Traffic moz.com. Abgerufen am 06.09.2016

Weblinks