Invisible Web


Das Invisible Web (deutsch: unsichtbares Internet) ist der Teil des World Wide Web, der für Suchmaschinen nicht indexierbar und somit unsichtbar ist. Im Gegensatz zum Surface Web besteht das Invisible Web aus Daten und Informationen, die aus verschiedenen Gründen mit Suchmaschinen nicht durchsucht werden können. Nutzer können entsprechend nicht darauf zugreifen, wenn sie herkömmliche Suchmaschinen verwenden. Zu den nicht indexierten Websites, Apps und Ressourcen zählen geschützte Informationen aus den Bereichen Mailversand, Online Banking, Fachdatenbanken und andere kostenpflichtige Services, deren Zugang zum Beispiel durch eine Paywall geregelt wird. Hinzu kommen nicht verlinkte und passwortgeschützte Websites sowie Medientypen und Archive, die mit der derzeitigen Suchmaschinentechnologie nicht gecrawlt werden können.

Allgemeine Informationen zum Thema

Die unterschiedlichen Bezeichnungen für das World Wide Web werden oftmals durcheinander geworfen. Begriffe wie Dark Web, Deep Web, Invisible/ Visible Web oder das sogenannte Darknet unterliegen unklaren Abgrenzungen und Definitionen. Die wichtigste empirische Studie zu diesem Thema stammt aus dem Jahr 2001 und dürfte mittlerweile nicht mehr aktuell sein.[1] Zwar wurde hier in erster Linie die Größe der verschiedenen Arten des Internets untersucht, jedoch wurden in einer weiteren Studie aus dem gleichen Jahr auch Begriffsunterscheidungen vorgenommen, die im Artikel Deep Web erläutert werden.[2] Von einem Invisible Web zu reden, macht ohnehin nur Sinn, wenn die verwendete Suchmaschine ebenfalls erwähnt wird. Denn spezielle Suchmaschinen machen auch Ressourcen im Invisible Web sichtbar und alles, das noch nicht durch Suchmaschinen indexiert wurde, ist prinzipiell auch unsichtbar für den Großteil der Internetnutzer.

Funktionsweise

Das Invisible Web kann als ein Bereich des Internets betrachtet werden, der entweder (noch) nicht indexiert wurde oder dem verschiedene Zugangsbeschränkungen auferlegt wurden. Eine Metapher, die in diesem Kontext gerne benutzt wird, ist die des Ozeans: Im Querschnitt können die Informationen, die das World Wide Web ausmachen, wie die verschiedenen Tiefen und Schichten des Ozeans dargestellt werden. Eine Suchmaschine wie Google wäre dann ein Fischerboot, das im seichten, flachen Wasser fischt. Darunter befinden sich aber noch viele weitere Informationen, die für das Fischerboot unerreichbar sind – weil die Netze nicht bis dahin hinunter reichen. Dieses Metapher wird auch als Schürf-Metapher bezeichnet. Entsprechend sind folgende Begriffe unter IT-Experten geläufig:

  • Surface Web: Die Informationsressourcen sind durch Hyperlinks miteinander verbunden. Suchmaschinen können diese Informationen crawlen und indexieren. Die meisten Nutzer kennen diese Art des Webs als das Internet, welches sie beispielsweise bei einer Sucheingabe verwenden.
  • Shallow Web (deutsch: flaches Internet): Das Shallow Web ist der informationstechnische Hintergrund vieler Seiten; Hier befinden sich Datenbanken, Server und Programmieranweisungen, die in den Datenbanken hinterlegt sind. Aus diesen Datenbanken werden zum Beispiel Websites unmittelbar erzeugt, wenn sie durch Nutzer aufgerufen werden. Dazu zählen insbesondere skriptbasierte und dynamische Websites, die mit Hyperlinks verlinkt sind und mit PHP und anderen Programmiersprachen erstellt wurden. Durch die Verlinkungen werden Suchmaschinen auf diese Websites aufmerksam, sie indexieren aber meist nur die statischen Versionen dieser Websites.
  • Deep Web oder Hidden Web (deutsch: das tiefe Internet; das versteckte Internet): Diese Informationen und Ressourcen sind in der Regel verborgen und es weisen keine Links darauf hin. Für die Suche nach diesen Informationen bedarf es spezieller Suchmaschinen sowie Technologien, um Zugang zu erhalten. Der Tor-Browser ist ein Beispiel für eine solche Technologie. Deep Web Verzeichnisse fungieren als spezielle Suchmaschinen, mit denen die Informationen erreicht werden können – sofern sie nicht anderen Zugangsbeschränkungen unterliegen (zum Beispiel Passwörter, Verschlüsselung, Firewalls).

In der oben genannten Terminologie ist das Invisible Web eine Kombination des Shallow und des Deep Webs: Um die Inhalte und Informationen des Invisible Webs zu erreichen, sind entweder individuelle Abfragen, die auf den verwendeten Programmiersprachen aufbauen, oder spezielle Suchmaschinen, die einen Index bereitstellen, notwendig. Da eine Vielzahl der Fachdatenbanken und Serverressourcen thematisch geordnet und in einer bestimmten Programmiersprache verfasst sind, ist die Suche in diesen Informationen für allgemeine Suchmaschinen wie Google, Yahoo oder Bing fast unmöglich. In diesem Sinne sind die dortigen Inhalte unsichtbar, jedoch prinzipiell unter Verwendung von vertikalen Suchmaschinen, bestimmten Technologien und den richtigen Programmieranweisungen erreichbar.

Beispiele

Einige Beispiele für das Invisible Web:

  • Datenbanken, aus denen Websites erst generiert werden (dynamische Websites).
  • Fachdatenbanken, die akademischen Zwecken dienen und eine Anmeldung erfordern.
  • Nicht verlinkte sowie passwort-geschützte Websites.
  • Zugangsbeschränkte Netzwerke, die bestimmte Technologien erfordern.

Bedeutung für das Online Marketing

Während Links von akademischen Netzwerken (.edu-Links) und Regierungs-Websites im Online Marketing durchaus begehrt sind, ist Vorsicht angeraten bei Inhalten aus dem Invisible Web. Jede Ressource sollte einzeln beurteilt und das Linkprofil einer Website regelmäßig in Augenschein genommen werden. Ähnlich wie beim Dark Web können bestimmte Verlinkungen für Google so aussehen, als ob es sich um Bad Neighbourhood handelt: Die verlinkenden Websites genießen kein Vertrauen der Suchmaschinen und demgemäß können derartige Links sich negativ für die verlinkte Ressource auswirken.

Gleichwohl stellt ein erster Link auf eine Website einen Vertrauensbeweis für herkömmliche Suchmaschinen dar. Durch diesen Link erlangen sie häufig Kenntnis einer neuen Ressource. Zudem ist es ratsam, zu prüfen, ob die zu vermarktende Website für herkömmliche Suchmaschinen erreichbar ist. So sollten die htaccess-Datei, Meta Tags und die Robots.txt dahingehend untersucht werden, ob sie den Suchmaschinen Zugang gewähren oder ob die Inhalte versteckt beziehungsweise unsichtbar sind.[3] Wenn Online Marketing für eine Website betrieben werden soll, sind die Crawlbarkeit und Indexierbarkeit zentrale Voraussetzungen für den Erfolg im Internet.

Einzelnachweise

  1. White Paper: The Deep Web: Surfacing Hidden Value quod.lib.umich.edu. Abgerufen am 24.10.2016
  2. The Invisible Web: Uncovering Sources Search Engines Can’t See ideals.illinois.edu. Abgerufen am 24.10.2016
  3. The Ultimate Guide to the Invisible Web oedb.org. Abgerufen am 24.10.2016

Weblinks