Blockierter Inhalt


Blockierter Inhalt sind Seiten, die für Suchmaschinen aus diversen Gründen gesperrt werden. Dies können Seiten sein, die von Suchmaschinen nicht indexiert werden dürfen wie z.B. Seiten im Beta-Stadium oder Seiten mit doppeltem Inhalt. Es gibt diverse Methoden wie Seiten für Suchmaschinen gesperrt werden können.

Die Methoden sind

  • robots.txt,
  • IP Blocking,
  • Meta-Robots.

600x400-BlockierterInhalt DE-neu.png

Robots.txt

Robots.txt (auch: Robots Exclusion Protocol) ist eine Textdatei für Robots, die im root-Verzeichnis abgelegt wird. Beim Indexieren einer Seite prüfen Robots, ob eine Datei robots.txt existiert und welche Anweisungen dort hinterlegt sind. Mithilfe der robots.txt Datei können bestimmte Seiten oder ganze Verzeichnisse ausgeschlossen werden. Diese werden von Suchmaschinenbots ignoriert und werden in der Regel weder gecrawled noch indexiert. Es gibt jedoch Fälle, in denen trotz Eintragung des entsprechenden Befehls in der robots.txt Inhalte dennoch in den Index aufgenommen werden. Dies geschieht vor allem, wenn Seiten von anderen Seiten erreichbar, sprich verlinkt sind.

IP Blocking

Durch IP Blocking können ebenfalls Seiten vor der Aufnahme in den Suchmaschinen Index bewahrt werden. Via einer htaccess Datei können bestimmte User-Agents (z.B. Suchmaschinenrobots, Spambots) ausgeschlossen werden. Diese Methode ist jedoch nur dann sinnvoll, wenn der Name des Bots und die IP, mit der der Zugriff erfolgt, bekannt ist. Da Suchmaschinenbots sich zeitweise als andere Bots tarnen, ist der Ausschluss aus dem Index nicht zwingend gewährleistet.

Damit Google Analytics beispielsweise die IP-Adresse nicht abspeichern kann, kann diese ananymisiert werden.

Meta Robots

Die dritte und die wohl sicherste Methode, Inhalte einer Website von der Indexierung durch Suchmaschinen auszuschließen, ist die Verwendung von Meta-Robots. Meta-Robots ist ein HMTL Meta-Tag das einem Suchmaschinenbot eine bestimmte Anweisung gibt, ob die Seite in den Suchmaschinenindex aufgenommen werden soll (index) und die Links auf der Seite gefolgt werden (follow). Dieses Meta-Tag wird im Header einer Seite deklariert. Möchte man Inhalte der Seite ausschließen, wird der Befehl im Robots-Tag folgendermaßen lauten:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Empfehlung

Beim Blockieren von Seiten ist es besonders bedeutsam, richtige Inhalte auszuschließen. Es soll dabei darauf geachtet werden, dass wichtige Seiten, die intern gut verlinkt sind, nicht versehentlich blockiert werden. Sind wertvolle Seiten blockiert, können diese nicht indexiert werden und keinen wertvollen Link Juice weitergeben.

Weblinks