Deep Web


Unter Deep Web oder “verstecktem” Web versteht man den Teil des World Wide Webs, der bei einer Recherche in der Regel nicht über eine normale Suchmaschine auffindbar ist. Das Deep Web besteht zu einem großen Teil aus Fachdatenbanken und Webseiten, welche erst dynamisch durch Anfragen aus speziellen Datenbanken generiert werden. Die Größe des Deep Web ist nicht eindeutig bestimmt, jedoch ist es um ein Vielfaches größer als der für die Suchmaschine sichtbare Teil, bekannt unter Visible Web (Sichtbares Web) oder Surface Web (Oberflächen Web).

Eigenschaften

Es ist schwierig, genaue Daten über das Deep Web zu erlangen, jedoch ergaben sich unter Anderem aus der Studie (Bergmann 2001) der Firma BrightPlanet[1] folgende Eigenschaften:

  • Das Deep Web sei etwa 400 bis 500 Mal großer als das Surface Web
  • Es existieren vermutlich mehr als 200.000 Deep-Webseiten
  • Webseiten aus dem Deep Web haben durchschnittlich 50% mehr Zugriffe pro Monat und seien besser verlinkt als Surface-Webseiten

Die University of California, Berkeley veröffentlichte 2003 folgende Werte zum Umfang des Internets:

  • Surface Web : 167 Terabyte
  • Deep Web : 91.850 Terabyte

Arten des Deep Web

Laut Sherman & Price (2001) kann man fünf Typen des Deep Web unterscheiden:

  • Opaque Web (deutsch: undurchsichtig)

Das Opaque Web bezeichnet Webseiten, die indiziert werden können, jedoch zum gegebenen Zeitpunkt auf Gründen der technischen Leistungsfähigkeit oder Aufwand-Nutzen-Relation nicht indiziert werden. Da Suchmaschinen nicht alle Verzeichnisebenen und Unterseiten einer Website berücksichtigen, können relevante Dokumente in tieferen Hierarchieebenen eventuell nicht berücksichtigt werden. Besonders betroffen sind Webseiten ohne Hyperlinks oder Navigationssystem, ebenso wie unverlinkte Webseiten.

  • Private Web

Zum Private Web zählen Webseiten, die indiziert werden könnten, jedoch auf Grund von Zugangsbeschränkungen des jeweiligen Webmasters nicht indiziert werden. Es kann sich hierbei um interne Webseiten, aber auch passwortgeschützte Daten oder einem Zugang nur für bestimmte IP-Adressen handeln.

  • Proprietary Web (deutsch: proprietär, eigentümlich)

Das Proprietary Web bezeichnet Webseiten, die nur nach Anerkennung einer Nutzungsbedingung oder durch die Eingabe eines Passwortes zugänglich sind und dadurch indiziert werden können. Jene Webseiten sind meist erst nach der Identifizierung abrufbar.

  • Invisible Web

Das Invisible Web beinhaltet Webseiten, die aus strategischen und kaufmännischen Gründen nicht indiziert werden. Aus technischer Sicht wäre jedoch eine Indizierung problemlos möglich.

  • Truly Invisible Web (deutsch: echt unsichtbar)

Webseiten des Truly Invisible Web werden aus technischen Gründen nicht indiziert. Es kann sich hierbei um Dokumente handeln, die nicht direkt im Browser angezeigt werden können, ebenso um Dateiformate, die wegen ihrer Komplexität nicht erfasst werden können (meist Grafikformate), oder auch Nicht-Standardformate (z.B. Flash).

Fazit

Das Deep Web beinhaltet einen weitaus größeren, zusätzlichen Datenvorrat hinsichtlich dem Surface Web. Eine Einbindung dieser Suchergebnisse kann dem User durchaus von Vorteil sein, da so eventuell geeignetere Treffer erzielt werden können. Jedoch ist eine effiziente Implementierung einer solchen Search Engine für sowohl Surface als auch Deep Web schwierig und die Auswahl der geeigneten Quellen aus der erhaltenen Suchanfrage kann problematisch sein. Neben wissenschaftlichen, legalen Daten befinden sich jedoch auch viele undurchsichtige Webseiten im Deep Web. Neben einem riesigen Schwarzmarkt lassen sich außerdem viele Seiten von Cyberkriminellen bis hin zu politischen Extremisten (Neonazis, Revolutionären) finden. Deswegen sollte das Deep Web trotz des großen Angebots an hilfreichen Dokumenten und Daten vor allem auch mit Vorsicht genutzt werden.

Bezug zum SEO

Ein Bestreben von Spezialisten im Bereich der Suchmaschinenoptimierung ist unter Anderem ein förderliches Suchergebnis für den User zu erzielen. So sollen gut verlinkte, inhaltlich relevante Webseiten eine dementsprechend hohe Indizierung im Google-Ranking erlangen. Die genaue Vorgehensweise des Crawlings und Rankings des Deep Web ist bisher noch unbekannt, jedoch entwickeln SEO-Spezialisten Strategien, mit welchen Dokumente des Deep Webs effizient zum jeweiligen Suchmaschinenuser gelangen.

Einzelnachweise

  1. [1] the journal of electronic publishing. Abgerufen am 23. Juli 2013.

Weblinks