« Zurück zum Magazine

Ohne Noindex in der robots.txt: Eine Bewertung der neuen Google-Spielregeln

Nach ihrer Ankündigung im Juli nutzt Google seit dem 01. September 2019 die Noindex-Direktive in der robots.txt nicht mehr. Die aktuell spannende Frage lautet: Indexiert Google nunmehr weniger mit der Disallow-Angabe gesperrte URLs als in der Vergangenheit?

Wie es zur Einführung von Noindex in der robots.txt kam

Doch zurück zum Anfang. 2008 erwähnte Matt Cutts, ehemaliger Chef des Web Spam-Teams bei Google, die Noindex-Angabe in der robots.txt zum ersten Mal. Die Direktive war unter dem Kontext, dass Google im Gegensatz zu vielen anderen Suchmaschinen in der robots.txt gesperrte URLs in den Index aufnahm, eine hilfreiche – wenngleich auch von den meisten eher unbekannte und daher ungenutzte – Lösungsoption. Aber sie funktionierte!

Sicherlich bleibt bis heute zu hinterfragen, warum Google nicht einfach die Disallow-Angabe als Signal für eine Nicht- bzw. De-Indexierung von URLs verwendet hat. Aber immerhin boten sie mit dem Noindex – wenn auch eher inoffiziell – eine Alternative an und unterstützten diese.

SEOs geht es um den Sweetspot aus Crawling- und Indexsteuerung

Doch die Zeiten, wo Matt Cutts bei Google etwas zu sagen hatte, liegen weit zurück. Zwar gab es auch Jahre danach keinerlei Neuerungen im Umgang mit der robots.txt, doch im April 2019 deutete Google Webmaster Trends-Analyst, Gary Ilyes, an, dass sich dies bald ändern wird. Seine Begründung:

„Technically, robots.txt is for crawling. The meta tags are for indexing. During indexing they’d be applied at the same stage so there’s no good reason to have both of them.“

Prinzipiell würde sicherlich keiner Gary bei dieser Aussage widersprechen, dass die robots.txt ein Instrument der Crawlingsteuerung und das Meta-Robots-Tag ein Instrument der Indexsteuerung ist. Doch in vielen Fällen will ein SEO den Sweetspot aus beiden Welten erreichen. Warum, so muss man zurückfragen, muss man sich überhaupt für eines von beidem entscheiden? Ein Website-Betreiber, der URLs durch die robots.txt vom Crawling sperrt, möchte auch nicht, dass diese indexiert werden.

Eine Aussage von Google macht Hoffnung

Im Juli 2019 bestätigte sich das, was im April angedeutet wurde. Google gab über ihren Webmaster Central Blog bekannt, dass sie das Noindex in der robots.txt ab September nicht mehr interpretieren werden. Hierbei sorgten sie mit dem folgenden Statement bei vielen SEOs für Diskussionsstoff:

„While the search engine may also index a URL based on links from other pages, without seeing the content itself, we aim to make such pages less visible in the future.“

Auch wenn dieses Statement im Sinne von "we aim to" oder "less visible" alles andere als klar und sicher formuliert ist, machte es in gewisser Weise Hoffnung, dass Google zukünftig durch die Disallow-Angabe geblockte URLs nicht mehr in den Index lässt.

Eine erste Bestandsaufnahme: Wie weniger sichtbar sind die zuvor mit der Noindex-Angabe geblockten URLs?

Etwas mehr als ein Monat ist seit der Umstellung von Google im Hinblick auf die Interpretation von der Noindex-Direktive in der robots.txt nun vergangen. Dies bietet für’s Erste genug Zeit, um einmal zu prüfen, inwiefern sich der Indexierungsstatus bei den durch die Disallow-Angabe geblockten URLs tatsächlich verringert hat.

Um dies zu analysieren, haben wir uns Kunden-Domains angeschaut, die im Juli vorzeitig die Noindex-Direktive durch ein Disallow ersetzt hatten – dies allerdings aufgrund einer starken Indexierungszunahme kurze Zeit später rückgängig machten (vgl. hierzu unseren Beitrag im Ryte-Magazin vom Juli 2019). Da bis zum 01. September nicht mehr ausreichend Zeit für eine vollständige De-Indexierung war, hatten alle vier Projekte noch ausreichend geblockte URLs im Index.

Schauen wir also in den folgenden Screenshots, ob in den Wochen nach dem 01. September die Anzahl der indexierten URLs weiter nach unten ging (was im Sinne von Googles Aussage zu erwarten wäre):

Fall 1: Großer Mode Online-Shop

noindex_robots_gsc1

Fall 2: Spezialisierter Angelbedarf Online-Shop

noindex_robots_gsc2

Hier ist zu erkennen, dass der Trend der De-Indexierung von durch die robots.txt (durch Disallow und Noindex) gesperrten URLs weiter fortgeführt werden konnte. Die offene Frage hierbei ist aber sicherlich, ob dies noch nachgelagerte Effekte sind. Denn das Herausnehmen der entsprechenden URLs aus dem Index setzt natürlich voraus, dass die jeweiligen URLs entsprechend neu gecrawlt werden. Ob die Fortsetzung des Trends tatsächlich am Disallow liegt, kann man daher anhand dieser beiden Fälle noch nicht sicher sagen.

Spannend ist aber auch der folgende Fall. Hier wurde die robots.txt wenige Stunden vor dem 01. September abgeändert, so dass anstelle von Noindex- nur noch Disallow-Angaben integriert waren. Das Resultat ist durchaus überraschend:

Fall 3: Spezialisierter Multimedia Online-Shop

noindex_robots_gsc3

Die Anzahl der trotz Disallow-Angabe blockierten URLs ist seit der Umstellung deutlich gestiegen. Fairerweise muss man hier jedoch ergänzen, dass die ersten blockierten URLs bereits vor der Umstellung der robots.txt indexiert wurden und laut Google Search Console die Domain seit dem 01. September zur Mobile-First-Indexierung gewechselt ist. Prinzipiell sollte letzteres eigentlich keinen Einfluss auf diese Thematik hier haben, aber dennoch sei dies an der Stelle nicht unerwähnt.

Weitere Prüfung: Wie entwickelte sich der Indexierungsstatus bei Websites, die schon immer nur auf die Disallow-Angabe setzten?

Ebenfalls haben wir ein paar weitere Projekte unter die Lupe genommen, die zuvor noch nie mit der Noindex-Angabe in der robots.txt gearbeitet hatten, aber auch einige geblockte URLs im Index aufwiesen. Hier wäre die Erwartungshaltung, dass Google seinem Versprechen nachkommt und ein Trend zu sehen ist, dass diese URLs tatsächlich "less visible" sind.

Schauen wir also in den folgenden Screenshots wieder das Ergebnis der Google Search Console Statistik „Indexiert, obwohl durch robots.txt-Datei blockiert“ an:

Fall 4: Spezialisierter Baumarkt Online-Shop

noindex_robots_gsc4

Fall 5: Herstellermarke mit Online-Shop

noindex_robots_gsc5

Die beiden gezeigten Projekte sowie viele weitere, die wir geprüft haben, erwecken nicht den Eindruck, dass die Disallow-Direktive seit September dazu beigetragen hat, dass nunmehr weniger blockierte URLs in den Google-Index gelangen. Die beiden obigen Kurven erwecken eher schon einen gegenteiligen Eindruck, wobei man sich hiervon nicht täuschen lassen sollte. Es gibt genauso auch Beispiele, wo der Verlauf gleichbleibend oder sogar abfallend ist. Dies scheinen aber eher die natürlichen Schwankungen zu sein, die es zuvor auch gab.

Fazit

In allen fünf Fällen kann man erkennen, dass die Disallow-Angabe derzeit noch nicht so stark zur De-Indexierung von URLs führt wie dies zu erhoffen wäre. Nach gerade einmal einem Monat ist es natürlich verfrüht zu einer finalen Beurteilung der neuen robots.txt-Bestimmungen zu kommen. Die Voraussetzung für die Beeinflussung der Indexierung ist immer ein vorangegangenes Crawling und hier sind 4-5 Wochen ggf. zu wenig. Denn diese Adressen wurden vom Crawling ausgeschlossen – für Google ist deshalb eine niedrigere Prüffrequenz durchaus sinnvoll. An dieser Stelle sei auch auf die Website Boosting 55 mit dem Artikel von Stephan Czysch, Managing Director von Dept, über das Thema Neu-Indexierung von Inhalten verwiesen, der dies noch einmal näher erklärt.

Dennoch ist der aktuelle Status quo ernüchternd. Die Vermutung liegt nahe, dass Google in ihrem Statement zum neuen Umgang mit der robots.txt mit „less visible“ nicht die wirkliche Indexierung der blockierten URLs meint, sondern die Ausspielung dieser Seiten bei relevanten Suchanfragen – also Queries außerhalb von Site-Abfragen. In dem Fall sind in den kommenden Monaten auch nicht unbedingt Veränderungen beim Indexierungsstatus zu erwarten. Viel eher könnten die Statistiken wieder steigen.

Gern wird an dieser Stelle argumentiert, dass die Indexierung von in der robots.txt geblockten URLs nicht problematisch ist und die eigentliche Performance in der organischen Google-Suche negativ beeinflusst. Das trifft sicherlich für die meisten Fälle auch zu. Dennoch ist es vonseiten Googles verwunderlich, warum man dann diese Gegebenheit als Warnung in der Google Search Console ausspielt und keine Lösungen mehr anbietet, bei der Crawling- und Indexierungssteuerung gleichzeitig optimiert werden können. Dass Google diese Seiten überhaupt in den Suchmaschinen-Index aufnimmt, macht schlichtweg keinen Sinn.

In jedem Fall werden wir das Thema weiter im Auge behalten und in ein paar Monaten denselben Test noch einmal durchführen. Was sind eure Beobachtungen hinsichtlich der Indexierung von in der robots.txt geblockten URLs? Hinterlasst uns hier gern eure Meinung!

Wie wird Deine robots.txt bewertet? Finde es heraus!

Veröffentlicht am Oct 15, 2019 von Darius Erdt