« Zurück zum Magazine

XXL-Anleitung: Was Du über die robots.txt wissen solltest

Wer eine Webseite einrichtet, stößt früher oder später auf den Begriff „robots.txt“. Diese Textdatei teilt Suchmaschinen-Crawlern mit, welche Bereiche einer Domain gecrawlt werden dürfen und welche nicht.

Im Grunde ist die Erstellung und richtige Platzierung einer robots.txt Datei kein Hexenwerk – vorausgesetzt Dein Webverzeichnis ist logisch strukturiert. Wir zeigen Dir in diesem Artikel wie Du eine robots.txt Datei erstellst, und was Du dabei beachten solltest.

Die robots.txt ist eine kleine Textdatei, die ganz einfach mithilfe eines Texteditors erstellt und ins Stammverzeichnis ("root") einer Webseite hochgeladen wird. Die meisten Webcrawler halten sich an das Robots-Exclusion-Standard-Protokoll. Dieses legt fest, dass Suchmaschinen-Robots (auch: User Agent) zunächst im Root-Verzeichnis nach einer Datei mit der Bezeichnung robots.txt suchen und die enthaltenen Vorgaben auslesen, bevor sie mit der Indexierung beginnen. Webmaster erstellen eine robots.txt Datei, um besser steuern zu können, welche Bereiche Deiner Webseite von Bots gecrawlt werden dürfen und welche nicht.

In der robots.txt-Datei definierst Du Anweisungen für die User-Agents von Google. Das können Browser sein, aber auch Robots (Spider, Crawler) einer Suchmaschine. Die gängigsten User-Agents sind der Googlebot, Googlebot-Image (Google-Bildersuche), Adsbot-Google (Google AdWords), Slurp (Yahoo) und bingbot (Bing).

Abbildung 1: User-Agents von Google

Aufbau einer robots.txt-Datei

Einträge in der robots.txt bestehen aus zwei Teilen. Im folgenden Beispiel stehen sie in zwei Zeilen untereinander, es können aber auch mehrere Zeilen sein, je nach Anzahl der Befehle und der User-Agents. Im oberen Teil sprichst Du den User-Agent mit Namen an. Darunter forderst Du ihn zu einer Handlung auf.

Mit dem folgenden Befehl wird der Googlebot zum Beispiel angewiesen, nur das Verzeichnis /cms/ nicht zu crawlen:

User-agent: Googlebot
Disallow: /cms/

Soll die Anweisung für sämtliche Crawler gelten, muss hier stehen:

User-agent: *
Disallow: /cms/

Wenn Du sichergehen möchtest, dass nicht nur einzelne Bereiche Deiner Webseite ignoriert werden sollen, sondern die gesamte Webpräsenz, setze einfach einen Schrägstrich:

User-agent: *
Disallow: /

Handelt es sich nur um eine spezielle Unterseite oder um ein Bild, das ausgeschlossen werden soll (in diesem Fall Beispieldatei bzw. Beispielbild), gib ein:

User-agent: Googlebot
Disallow: /beispieldatei.html
Disallow: /images/beispielbild.jpg

Sind alle Bilder auf Deiner Webpräsenz privater Natur und sollen ausgeschlossen werden, kannst Du mit dem Dollarzeichen arbeiten: Das Zeichen $ dient als Platzhalter für eine Filterregel, die am Ende einer Zeichenkette greift. Der Crawler indexiert keine Inhalte, die auf diese Zeichenkette enden. Alle jpg.-Dateien könnten also wie folgt ausgeschlossen werden:

User-agent: *
Disallow: /*.jpg$

Es gibt auch eine Lösung für den Fall, dass ein Verzeichnis gesperrt, ein Teilverzeichnis darin aber zum Indexieren freigegeben werden soll. Ergänze den Code dann um folgende Zeilen:

User-agent: *
Disallow: /shop/
Allow: /shop/magazin/

Willst Du AdWords-Anzeigen vom organischen Index ausschließen, kannst Du im Code eine Ausnahme angeben.

User-agent: Mediapartners-Google
Allow: /
User-agent: *
Disallow: /

Tipp: In der robots.txt Datei sollte auch auf die XML-Sitemap verwiesen werden, um Crawlern mitzuteilen, welche URL-Struktur eine Webseite besitzt. Dieser Verweis kann wie folgt aussehen:

UserAgent: *
Disallow:
Sitemap: http://[www.meineseite.de]/sitemap.xml

robots.txt mit Wildcards nutzen

Das Robots-Exclusion-Standard-Protokoll erlaubt zwar keine regulären Ausdrücke (Wildcards) im strengen Sinne. Es erkennt für die Pfadangaben aber zwei Platzhalterzeichen:

Die Zeichen * und $.

Sie werden mit der Direktive Disallow verwendet, um ganze Webseiten oder einzelne Dateien und Verzeichnisse auszuschließen.

Das Zeichen * ist ein Platzhalter für Zeichenketten (Strings), die auf dieses Zeichen folgen. Wenn sie die Syntax von Wildcards unterstützen, indexieren Crawler Webseiten nicht, die diese Zeichenkette enthalten. Beim User-Agent bedeutet es, dass die Direktive für alle Crawler gilt – auch ohne die Angabe einer Zeichenkette.

Abbildung 2: Ausschnitt aus der robots.txt-Datei von Amazon

Tipp: Wenn Wildcards und Programmieren Neuland für Dich sind und sich das alles zu kompliziert anhört, nutze doch einfach den robots.txt Generator von Ryte zum Erstellen Deiner robots.txt-Datei.

Für die korrekte Funktion einer robots.txt-Datei gibt es obligatorische Voraussetzungen. Bevor Du die Datei online stellst, prüfe unbedingt, ob folgende Grundregeln eingehalten werden:

  • Die robots.txt-Datei liegt auf der obersten Verzeichnisebene. Die URL der robots.txt von http://www.beispieldomain.de müsste also lauten: http://www.beispieldomain.de/robots.txt

  • Das Ende einer Dateierweiterung wird mit dem Dollarzeichen ($) markiert.

  • Standardmäßig steht die Datei auf „allow“. Wenn Du Bereiche blockieren willst, musst Du diese mit „disallow“ kennzeichnen.

  • Anweisungen sind case-sensitive, das heißt: Groß- und Kleinschreibung werden differenziert.

  • Zwischen mehreren Regeln steht jeweils eine Leerzeile.

robots.txt-Datei testen

Mit dem praktischen Ryte robots.txt Testing Tool kannst Du in wenigen Schritten überprüfen, ob Deine Webseite eine robots.txt Datei enthält. Alternativ kannst Du direkt in der Google Search Console arbeiten. Im Hauptmenü auf der Startseite findest Du in der Rubrik "Crawling" den Unterpunkt robots.txt-Tester.

Wenn jemand anders Dein Webverzeichnis erstellt hat und Du nicht sicher bist, ob Du überhaupt eine robots.txt-Datei hast, siehst Du es im Tester nach Eingabe Deiner URL. Erscheint hier "robots.txt-Datei nicht gefunden (404)", musst Du sie zunächst bei Google einreichen, wenn manche Bereiche der Seite von Webcrawlern ignoriert werden sollen.

Abbildung 3: Webseite enthält keine robots.txt-Datei

1. robots.txt-Datei bei Google einreichen

Klickst Du im robots.txt-Editor unten rechts auf "Senden", öffnet sich ein Dialogfeld. Lade hier den bearbeiteten robots.txt-Code von der Tester-Seite herunter, indem Du "Herunterladen" auswählst.

Abbildung 4: Upload und Aktualisierung der robots.txt-Datei

Die neue robots.txt Datei musst Du in Dein Stammverzeichnis hochladen und kannst dann mit einem Klick auf die Schaltfläche "Live verfügbare robots.txt ansehen" überprüfen, ob die Datei von Google gecrawlt wird. So teilst Du Google gleichzeitig mit, dass die robots.txt-Datei geändert wurde und nun gecrawlt werden soll.

2. robots.txt Fehler beheben

Existiert die robots.txt Datei bereits, scrolle durch den Code, um zu sehen, ob es Syntax-Warnungen oder logische Fehler gibt.

Abbildung 5: Beispiel einer robots.txt-Datei

Unter dem Tester siehst Du ein Textfeld, in das Du die URL einer Seite auf Deiner Webseite eingibst und auf "Testen" klickst.

Zusätzlich kannst Du in der Drop-Down-Liste rechts neben diesem Feld den User-Agent auswählen, den Du simulieren möchtest. Standardmäßig steht das Menü auf "Googlebot".

Abbildung 6: Die User-Agents von Google

Wird nach dem Testen der Begriff "Zugelassen" angezeigt, kann die Seite indexiert werden. Ergibt das Testergebnis aber "Blockiert", wird die eingegebene URL für Webcrawler von Google geblockt.
Wenn das Ergebnis nicht Deinen Vorstellungen entspricht, korrigiere die Fehler in der Datei und führe den Test noch einmal durch. Bearbeite die robots.txt-Datei immer auf Deiner Webseite, denn mit dem Tester sind Änderungen nicht möglich.

Das robots.txt Monitoring von Ryte

Sowohl für große Unternehmen, als auch für Webseitenbetreiber kleiner Seiten ist es wichtig stets zu überprüfen, ob die robots.txt zu jederzeit erreichbar ist und ob sich an ihrem Inhalt etwas geändert hat. Mithilfe des robots.txt Monitorings von Ryte ist das möglich. Der Report ist im Modul Website Success zu finden.

robots.txt-monitoring

Abbildung 7: Das robots.txt Monitoring von Ryte

Die robots.txt Datei der Webseite wird von Ryte jede Stunde angepingt. Dabei wird überprüft, ob diese erreichbar ist (Status 200) und ob sich der Inhalt der Datei im Vergleich zur vorherigen Abfrage geändert hat. Ebenfalls wird dabei auf die Ladezeit der Datei geachtet und Abweichungen wie z.B. Timeouts registriert.

Im Website Success werden alle gefundenen Versionen der robots.txt Datei aufgelistet, inklusive deren durchschnittlicher Ladezeit und Download Fehlern. Möchte man sich eine Version genauer anschauen, kann man durch einen Klick auf die Lupe am rechten Bildrand die Detailansicht starten.

Fazit

Für Deine technische Suchmaschinenoptimierung ist eine korrekte Programmierung und Platzierung der robots.txt-Datei von großer Bedeutung. Selbst die kleinsten Syntaxfehler können dazu führen, dass der User-Agent anders agiert als gewollt. Seiten, die Du ausschließen wolltest, werden dann gecrawled oder andersherum.

Überlege gut, ob Du wirklich Seiten via robots.txt-Datei ausschließen willst. Deine Anweisungen gelten den Crawlern nur als Richtlinien, die evtl. nicht wie geplant befolgt werden. Außerdem kann die robots.txt-Datei von einigen Crawlern falsch gelesen werden, die eine spezielle Syntax vorgeben. Kontrollieren sie deshalb regelmäßig mit den oben genannten Tipps und prüfe, ob die Datei stets erreichbar ist.

Monitore Dein robots.txt mit Ryte Website Success!

Veröffentlicht am Feb 23, 2017 von Eva Wagner