Jede Woche erklärt Dir einer unserer Superheroes ein Feature aus der neuen Version von OnPage.org - das ist OnPage’s Eleven!
Letzte Woche hat Marcus in seinem Artikel ausführlich die neue Version des OnPage.org Keywords Modul vorgestellt, das in den vergangenen Wochen komplett überarbeitet wurde. Wir bleiben direkt beim Thema Monitoring. Der heutige Artikel zeigt das praktische robots.txt Monitoring und erklärt wie dieser neue Report bei der Suchmaschinenoptimierung Deiner Webseite unterstützen kann.
Bei der robots.txt Datei handelt es sich um eine einfache Textdatei im Stammverzeichnis der Webseite, in der festgelegt wird, auf welche Bereiche einer Domain die Suchmaschinen-Crawler nicht zugreifen sollen. Die Datei verwendet dabei den Robots Exclusion Standard, ein Protokoll mit einigen Befehlen. Damit werden die Zugriffsmöglichkeiten auf die Webseite für verschiedene Typen von Web-Crawlern angegeben. Auch der Ausschluss einzelner Dateien in einem Verzeichnis, ganzer Verzeichnisse oder ganzer Domains ist über die robots.txt Datei möglich.
Unstimmigkeiten in dieser Datei können dazu führen, dass ganze Bereiche der Webseite plötzlich nicht mehr gecrawlt werden dürfen. Aus diesem Grund sollten Webmaster stets ein Auge auf ihre robots.txt Datei haben und deren Inhalt regelmäßig überprüfen.
Wenn beispielsweise für alle Suchmaschinen das Crawling des Verzeichnisses "beispielverzeichnis" unterbunden werden soll, muss in der robots.txt folgende Syntax verwendet werden:
User-agent: *
Disallow: /beispielverzeichnis/
Es gibt viele verschiedene Online Tools, mit deren Hilfe eine robots.txt Datei ganz leicht angelegt werden kann. Sobald die robots.txt erstellt ist, wird sie auf der obersten Verzeichnisebene der Webseite (root) hinterlegt. Dort ist sie dann jederzeit abrufbar:
z.B. http://www.deine-domain.de/robots.txt
Achtung: Dateien oder Verzeichnisse, die in der robots.txt Datei vom Crawling ausgeschlossen werden, können trotzdem von Suchmaschinen in deren Index aufgenommen werden. Zum Beispiel sobald eine über die robots.txt ausgeschlossene URL auf einer crawlbaren externen Seite verlinkt wird. Da sie dem Bot jedoch das Crawling untersagt, wird meist anstelle der Meta-Description die folgende Textzeile angezeigt:
"Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar."
Abbildung 1: Beispielsnippet einer Seite, die durch die robots.txt Datei ausgeschlossen ist, aber trotzdem indexiert wurde.
Noch mehr Infos zur robots.txt Datei erhältst Du in diesem Artikel.
Das robots.txt Monitoring innerhalb der OnPage.org Software eignet sich sowohl für professionelle SEOs, als auch für kleine Webseitenbetreiber. In großen Unternehmen werden häufig Änderungen an der robots.txt vorgenommen, ohne dass man darüber informiert wird. Webseitenbetreiber kleiner Seiten hingegen sind meist selbst für Änderungen an der robots.txt verantwortlich. Für beide ist es wichtig stets zu überprüfen, ob die robots.txt zu jederzeit erreichbar ist und ob sich an ihrem Inhalt etwas geändert hat.
Mithilfe des robots.txt Monitorings von OnPage.org geht das jetzt ganz einfach. Der Report ist in der Navigation im Modul "OnPage.org Monitoring" zu finden.
Abbildung 2: Das robots.txt Monitoring von OnPage.org
Die robots.txt Datei der Webseite wird von OnPage.org im Rahmen des Monitorings jede Stunde angepingt, um zu überprüfen, ob diese erreichbar ist (Status 200) und ob sich der Inhalt der Datei im Vergleich zur vorherigen Abfrage geändert hat. Dabei wird auch auf die Ladezeit der Datei geachtet und Abweichungen wie z.B. Timeouts registriert.
Folgende technische und inhaltliche Aspekte werden beim Monitoring überprüft:
Technische Überprüfung:
- Ist robots.txt erreichbar? Mit welchem Status Code antwortet die Datei?
- Wie ist die Ladezeit der Datei? Weist sie einen Timeout auf?
Inhaltliche Überprüfung:
- Hat sich der Inhalt der Datei geändert? Wenn ja, wie viele Zeilen sind hinzugekommen oder wurden entfernt?
- Wie ist der konkrete Inhalt der aktuellen robots.txt Version und wie sah der konkrete Inhalt der vorherigen Version aus?
Im Report werden anschließend alle gefundenen Versionen der robots.txt Datei aufgelistet, inklusive deren durchschnittlicher Ladezeit und Download Fehlern.
Abbildung 3: Die durchschnittliche Ladezeit der verschiedenen robots.txt Versionen
In der Liste darunter sind die verschiedenen Versionen noch einmal einzeln aufgeführt.
Abbildung 4: Alle Versionen der robots.txt Datei
In dieser Tabelle lässt sich ablesen, wie lange die jeweilige Version
Auch die Ladezeit wird hier nochmals für die einzelnen Versionen angezeigt.
Abbildung 5: Informationen zu Zeit, letzten Änderungen und der Ladezeit
Möchte man sich eine Version genauer anschauen, kann man durch einen Klick auf die Lupe am rechten Bildrand die Detailansicht starten.
Abbildung 6: Detailansicht einer einzelnen Version
In dieser Detailansicht wird die komplette robots.txt Datei in einem Fenster angezeigt. Sind die darüber liegenden drei Symbole des Status Codes, Dokumenten-Typs und der Ladezeit grün, ist mit dieser Version alles in Ordnung und es besteht kein Handlungsbedarf.
Das robots.txt Monitoring verfügt über eine praktische Benachrichtigungsfunktion, die den Webseitenbetreiber rechtzeitig über Änderungen an der robots.txt informiert. Falls die Datei einmal nicht den Status 200 zurückliefert, bekommt der Projektinhaber eine E-Mail, in der auf die fehlende Erreichbarkeit der robots.txt hingewiesen wird.
Wenn eine Abweichung des Inhalts der robots.txt auftritt, listet der Report die genaue Anzahl der Veränderungen auf. Bei mehr als 5 Änderungen wird ebenfalls eine E-Mail verschickt mit der Bitte, die robots.txt Datei zu überprüfen und nachzuvollziehen, ob diese Änderungen beabsichtigt sind, oder ob vielleicht ein Fehler vorliegt.
Abbildung 7: Beispiel E-Mail bei einer hohen Anzahl an Veränderungen der robots.txt Datei
Tipp: Die Benachrichtigungen kann man in den Benutzereinstellungen im Reiter "E-Mails" für die einzelnen Projekte je nach Wunsch aktivieren oder deaktivieren.
Abbildung 8: Einstellen der Benachrichtigungsfunktion
Das robots.txt Monitoring ermöglicht es, die robots.txt Datei immer im Blick zu halten. Sei es der Status Code, die Ladezeit oder inhaltliche Veränderungen - dem Monitoring von OnPage.org entgeht nichts. Die praktische Benachrichtigungsfunktion informiert Webseitenbetreiber zudem stets über fragliche Abweichungen und Änderungen.
Jetzt bist Du dran - Teste das OnPage.org robots.txt Monitoring doch einfach selbst!
Happy Optimizing!
Folgende Beiträge sind bisher in dieser Artikelserie erschienen:
OnPage.org startet OnPage’s Eleven - Willkommen im V3 Dashboard
OnPage's Eleven Nr. 2 - Die einzelnen Module und deren Einsatz
OnPage’s Eleven Nr. 3 - Verbesserte Reportansicht
OnPage’s Eleven Nr. 4 - Was ist indexierbar?
OnPage’s Eleven Nr. 5 – Benutzerdefinierte Felder und Zähler
OnPage’s Eleven Nr. 6 - Dateien (statische Inhalte)
OnPage's Eleven Nr. 7 - PDF-Exports
OnPage's Eleven Nr. 8 - Das neue OnPage.org Keywords Modul
OnPage’s Eleven Nr. 10 - Crawler Einstellungen
Veröffentlicht am 12.02.2016 von Eva Wagner.
Who writes here
Eva ist ein erfahrener Content Marketer. Sie war bis Mai 2018 Teil des Online-Marketing Teams von Ryte. Als Verantwortliche für Redaktion & Presse organisierte sie mit viel Kreativität und ihrem Gespür für aktuelle Themen das Ryte Magazine und das Ryte Wiki. Außerdem leitete sie die Präsenz von Ryte auf großen Messen wie der dmexco in Köln.
Optimiere Websites, Content, Search Performance und erhalte mehr Besucher und Kunden. Worauf wartest Du noch?
free_seo_ctaWillst Du mehr SEO Traffic generieren?
Ryte FREE hilft dabei.
Analysiere jetzt Deine Website!