Indexierung

Was ist Indexierung?

Indexierung bezeichnet allgemein eine Methode der Informationserfassung. Im Kontext des Internets steht Indexierung für die Aufnahme eines Dokuments in den Index einer Suchmaschine. Die Suchmaschinen verwenden hierfür Crawler, die das Web durchsuchen und Dokumente an den Indexer liefern.

Hintergrund

Allgemein bezeichnet Indexierung eine Methode der Informationserfassung (engl: Information Development), bei der Dokumente anhand von Stich- und Schlagwörtern gesammelt und sortiert werden. Daraufhin wird ein Index gebildet, der einer Bibliothek ähnelt: Die indexierten Dokumente, größtenteils Textinhalte, werden für eine Suche nach einem bestimmten Dokument oder Schlagwort aufbereitet und mit sogenannten Deskriptoren versehen.

Sucht nun ein Nutzer nach einem Schlagwort und den damit verbundenen Dokumenten, werden möglichst relevante Inhalte angezeigt. In einer Bibliothek können Deskriptoren Daten wie Autoren, Titel oder auch ISBN-Nummern sein. Im Prinzip geschieht das Gleiche bei einer Suchanfragen im Internet. Speziell bedeutet der Begriff Indexierung also die Bildung eines Indexes, der Webdokumente anhand verschiedener Deskriptoren (z. B. Keywords) sammelt, sortiert und für spätere Suchanfragen verfügbar macht (engl: Informationretrieval).

Indexierung im Internet

Die Indexierung von Webdokumenten ist ein aufwendiger und komplexer Prozess, der sich verschiedener Methoden aus Informationswissenschaft, Informatik und Computerlinguistik bedient. Wichtige Begriffe hierbei sind neben dem Information Development (oben erklärt) und dem Informationretrieval (deutsch: Informationsrückgewinnung) auch das Data Mining: Die Herauslösung von wertvollen Inhalten aus einer großen Menge von Daten.

Bei einer Suchanfrage geschehen also schon vor der Eingabe eines Schlagwortes verschiedene Prozesse, die mit der Indexierung zusammenhängen. Es müssen Webdokumente durchsucht und ausgelesen werden (Vgl. Crawler, Spider, Bots). Diese werden in einem Index gesammelt, sortiert und hierarchisiert, bevor sie in den SERPs von Suchmaschinen in bestimmter Reihenfolge dargestellt werden können. Suchmaschinenbetreiber wie Google, Yahoo oder Bing arbeiten ständig daran, die Indexierung von Webseiten zu verbessern, um dem Nutzer möglichst relevante Inhalte zu liefern.

Google verändert in unregelmäßigen Abständen den Index und hat beispielsweise in der Vergangenheit den Caffeine-Index eingeführt. Dieser soll Webinhalte schneller in den Index aufnehmen, indem er ständig bestimmte Teile des weltweiten Internets synchron durchsucht. Zudem sollen so auch Webinhalte wie Videos oder Podcasts besser gefunden werden.^[1]

Praxisbezug

Für Seitenbetreiber und Webmaster ergeben sich im Hinblick auf die Indexierung verschiedene Konsequenzen und Möglichkeiten. Soll eine Webseite indexiert werden und im Index zu finden sein, muss sie zunächst für den Crawler bzw. Spider erreichbar sein. Handelt es sich um eine neue Webseite, kann diese der Suchmaschine zur Indexierung auch mittels der Suchmaschinenanmeldung vorgeschlagen werden. Die Webseite muss für den Crawler auffindbar und bis zu einem bestimmten Grad auslesbar sein.

Entsprechende Möglichkeiten, dies sicherzustellen sind Meta-Tags, die im Head-Abschnitt einer Webseite notiert werden können. Damit kann ebenfalls der Zugriff für Crawler unterdrückt werden, um zum Beispiel eine bestimmte Seite vom Index auszuschließen. Auch Canonical-Tags und weitere Tags in der robots.txt können hier verwendet werden. Der Status der Indexierung kann in der Google Search Console abgerufen werden. Unter dem Reiter Google-Index und Indexierungsstatus werden URLs angezeigt, die bereits im Index zu finden sind. Und auch solche, die zum Beispiel vom Seitenbetreiber blockiert worden sind.^[2]

Indexierung und SEO

Die Bedeutung der Indexierung für die Suchmaschinenoptimierung ist enorm wichtig. Webmaster und Seitenbetreiber können diesen Prozess im Ansatz steuern und dafür sorgen, dass Webseiten gecrawlt, indexiert und anschließend in den SERPs angezeigt werden. Allerdings können sie die Position nur durch verschiedene Onpage- und Offpage-Maßnahmen sowie die Bereitstellung qualitativ hochwertiger Inhalte beeinflussen.

Gleichzeitig sollten sie auf dem Laufenden bleiben, denn Google ändert seine Algorithmen relativ regelmäßig, um zum Beispiel Spam-Webseiten oder Link-Netzwerke vom Index auszuschließen.^[3]

Einzelnachweise

↑ Our new search index: Caffeine. googleblog.blogspot.de. Abgerufen am 07. Februar 2014.
↑ Indexierungsstatus. support.google.com. Abgerufen am 07. Februar 2014.
↑ Unnatürliche Links und Antrag auf erneute Überprüfung. googlewebmastercentral-de.blogspot.de. Abgerufen am 07. Februar 2014.

Weblinks

[1] Our new search index: Caffeine. googleblog.blogspot.de. Abgerufen am 07. Februar 2014.

[2] Indexierungsstatus. support.google.com. Abgerufen am 07. Februar 2014.

[3] Unnatürliche Links und Antrag auf erneute Überprüfung. googlewebmastercentral-de.blogspot.de. Abgerufen am 07. Februar 2014.

[1]

[2]

[3]