Deepbot

Als Deepbot wird ein Teil des Webcrawlers Googlebot bezeichnet, der das Internet in regelmäßigen Zeitabständen durchsucht (Crawling), um möglichst viele Inhalte und Websites dem Google Suchindex hinzufügen (Indexierung). Deepbot konzentriert sich auf die Tiefe von Websites und folgt allen Verweisen die ihm durch den bestehenden Index bekannt sind. Deepbot bewegt sich automatisch von Verweis zu Verweis, erfasst verschiedenste Daten (Vgl. Rankingfaktoren) und speist sie in das komplexe System ein. Alle Inhalte, auf die Deepbot bei diesem tiefgehenden Crawling-Prozess stößt, werden Schritt für Schritt dem Index zugeordnet. Diese Datenbasis ist die Grundlage für die Algorithmus-Berechnungen, die letztendlich zum Ranking führen. Die Prozesse wirken sich direkt auf das Ranking von Websites in den SERPs aus, da das System neue Datensätze verwendet – was als Google Dance bekannt ist und einem Data Refresh gleichkommt. Deepbot besucht aktuell Websites in einem Abstand von etwa einem Monat und crawlt circa eine Woche lang Millionen von Webdokumenten im Internet.

Allgemeine Informationen zum Thema

Websites können als Baumstrukturen oder Graphen dargestellt werden, die von einem Computerprogramm automatisch durchsucht werden können. Das Programm, das auch als Bot, Spider oder Crawler beschrieben wird, scannt die Struktur der Seite und die Inhalte, die sich an den Verästelungen (Links) befinden. Eine Startseite ist ein Wurzelknoten, von dem mehrere Unterseiten erreichbar sind. Die Links, die zu diesen Unterseiten führen, werden als Kanten bezeichnet. Das Computerprogramm besteht zu einem Großteil aus Algorithmen, die die möglichen Wege in diesen Strukturen beschreiben und regeln, welche Daten signifikant für eventuelle Änderungen im Ranking sind. Die beiden Teile des Googlebots - Freshbot und Deepbot - sind mittlerweile auf der Ebene der Infrastruktur implementiert (Vgl.: Google Caffeine).^[1]

Funktionsweise

Der Googlebot besteht im Prinzip aus zwei Komponenten:^[2]

Freshbot: Der Freshbot fokussiert sich auf neue Inhalte und somit auf Websites, die ihren Content in sehr kurzen Zeitabständen aktualisieren. Online-Magazine, News-Websites oder Blogs beispielsweise.
Deepbot: Der Deepbot untersucht die Tiefenstrukturen von Websites und sammelt möglichst viele Links für den Index. Deepbot erntet Links (Harvesting) und folgt ihnen soweit er kann.

Während bei einem Freshcrawl Websites anvisiert werden, deren Inhalte sich ständig ändern, zeichnet sich der Deepcrawl dadurch aus, dass alle Unterseiten einer Website ausgelesen werden. Das Crawling geht in die Tiefenstruktur der Website hinein. Die Unterseiten müssen aber nicht zwangsläufig neue Inhalte bereitstellen, sie werden lediglich in ihrer Gesamtheit durch den Deepbot verfolgt und in einem invertierten Index gelistet. Das Ziel des Deepbots besteht darin, einen vertikalen Überblick über die Struktur und die Inhalte einer Website zu bekommen, um später bei Suchanfragen relevante Ergebnisse innerhalb von kürzester Zeit anzeigen zu können. Dank der Indexstruktur kann Google binnen Millisekunden auf bestimmte Datenbestände zugreifen, die durch eine Suchanfrage ausgelöst wurden.

Teilweise erhält Deepbot Anweisungen von dem anderen Teil des Google-Crawlers: Der Freshbot crawlt ständig das Internet und nimmt Links in den Index auf, die der Deepbot noch durchsuchen kann. Wenn diese neuen Inhalte indexiert werden, kann es ebenfalls zu Schwankungen im Ranking kommen, was Experten als den Everflux-Effekt betiteln. Dies ist ebenfalls ein Data Refresh und kein Algorithmus-Update, wie Matt Cutts einst betonte.^[3] Die endgültigen Indexierungs-Ergebnisse pendeln sich mit der Zeit ein, nachdem Google die Daten für den Index per turnusmäßigem Deepcrawl gesammelt hat und der Freshcrawl den Datenbestand kontinuierlich aktualisiert. Das Funktionsprinzip dieser Suche nach Links wird als inkrementelle Suche bezeichnet: Kleine Schritte verbessern das System kontinuierlich. Deepbot und Freshbot sind gleichzeitig an verschiedenen Stellen der Infrastruktur des Internets aktiv.

Praxisbezug

Da bei jedem Crawl eine Kommunikation zwischen einem Client (Bot, Crawler, Spider) und einem Server stattfindet, können diese Prozesse zumindest zu einem Teil rekonstruiert werden. Sobald ein Bot auf eine Website zugreift, registriert der Server diesen Zugriff und notiert ihn in den Logfiles. An der IP-Adresse und dem User Agent ist ersichtlich, um welchen Bot es sich handelt. Der Bot agiert dabei wie ein Browser ohne grafische Benutzeroberfläche. Der Begriff Headless Crawling hat sich dafür eingebürgert. Wie der Googlebot eine Website sieht, kann mit dem Tool „Abruf wie durch Google“ (engl.: fetch as google) beobachtet werden.^[4]

Der Googlebot kann auch verifiziert werden, indem eine DNS-Suche in beide Richtungen durchgeführt wird. Das ist zum Beispiel sinnvoll, um Spambots oder Spoofing auszuschließen. Eine langfristige Sperrung von bestimmten IP-Adressen kommt nicht in Frage, da Google die Adressbereiche der Googlebots ändern kann.^[5]

Umgekehrter DNS-Lookup: Mit dem Befehl host und der IP-Adresse aus den Server-Logfiles kann der Domainname abgerufen werden.
Nun wird geprüft, ob der Domainname googlebot.com oder google.com in den Logfiles vorkommt.
Normaler DNS-Lookup: Mit dem Befehl host und dem abgerufenen Domainnamen aus Schritt Eins kann jetzt die IP-Adresse dieses Domainnamens ausgegeben werden.

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Wenn die Daten übereinstimmen, handelt es sich tatsächlich um den Googlebot. Andere Einträge der Logfiles können ebenfalls nach diesem Schema untersucht und eventuell ausgeschlossen werden. Es gibt mehrere Möglichkeiten, um das Crawling und die Indexierung zu steuern. Zu erwähnen sind die Robots.txt-Datei, die als lockere Anweisung für Crawler betrachtet werden muss, oder das Meta Tag Nofollow, das dem Crawler sagt, dass er diesem Link nicht folgen soll. Generell ist es förderlich, eine Sitemap bei Suchmaschinen einzureichen, damit diese einen Überblick über die Struktur der Website und deren Inhalte bekommen.

Bedeutung für die Suchmaschinenoptimierung

Erst die beiden Komponenten Deepbot und Freshbot sowie ihre besonderen Arbeitsweisen erlauben die Aufnahme von Webdokumenten in den Google Suchindex. Auf diese Weise werden Websites und ihre Unterseiten für die Nutzer von Google verfügbar gemacht und alle Inhalte möglichst zeitnah aktualisiert. Für das Crawling und die Indexierung werden verschiedene Erkenntnisse aus den folgenden Fachgebieten verwendet:

Information Retrieval,
Data Mining,
Web Scraping
sowie die Wissensrepräsentation in Informationssystemen.

Man kann jedoch davon ausgehen, dass Google diese Verfahren, Methoden und die eingesetzte Infrastruktur im Detail unter Verschluss hält. Die Art und Weise, wie Google Websites analysiert und evaluiert, ist ein zentraler Bestandteil des Geschäftsmodells des Suchmaschinenriesen und wird gemäß dem neuesten Stand der Forschung stetig weiterentwickelt. Mittlerweile ist die Technologie so weit, dass Experten von einem Instant Indexing sprechen.

Die Verfahren erfordern jedoch auch eine gewisse Bandbreite der Internetverbindung, da eine HTTP-Kommunikation notwendig ist. Sehr viele Zugriffe durch Bots können die Serverauslastung in die Höhe treiben, die Ressourcen für echte Nutzer sind in diesen Zeiträumen mitunter unzureichend. Deshalb ist ein Deckeln der Crawlingfrequenz in einigen Fällen angebracht: die Anzahl der Anfragen pro Sekunde kann von Webmastern begrenzt werden, sodass das Crawling nicht zu viele Ressourcen beansprucht.^[6]

Zudem können Webmaster und Analysten falsche Daten in Google Analytics erhalten, wenn die Feineinstellungen für das Crawling und die Indexierung nicht vorgenommen wurden. Der Ausschluss bestimmter Bots aus den Datenansichten ist beispielsweise sinnvoll, um die aussagekräftigen Besuche von echten Nutzern von solchen zu unterscheiden, die durch Bots erfolgt sind.^[7] Ganz allgemein kann den Suchmaschinen auf unterschiedlichen Wegen mitgeteilt werden, welche Websites und Inhalte sie crawlen und indexieren sollen und welche nicht.

Einzelnachweise

↑ Our new search index: Caffeine googleblog.blogspot.de. Abgerufen am 15.09.2016
↑ How Search Engnies work Google with Freshbot and Deepbot anampedia.com. Abgerufen am 15.09.2016
↑ Explaining algorithm updates and data refreshes mattcutts.com. Abgerufen am 15.09.2016
↑ "Abruf wie durch Google" für Websites verwenden support.google.com. Abgerufen am 15.09.2016
↑ Googlebot überprüfen support.google.com. Abgerufen am 15.09.2016
↑ Crawling-Frequenz des Googlebots ändern support.google.com. Abgerufen am 15.09.2016
↑ Bot-Traffic und Spam-Zugriffe in Analytics netzstrategen.com. Abgerufen am 15.09.2016

Weblinks

[1] Our new search index: Caffeine googleblog.blogspot.de. Abgerufen am 15.09.2016

[2] How Search Engnies work Google with Freshbot and Deepbot anampedia.com. Abgerufen am 15.09.2016

[3] Explaining algorithm updates and data refreshes mattcutts.com. Abgerufen am 15.09.2016

[4] "Abruf wie durch Google" für Websites verwenden support.google.com. Abgerufen am 15.09.2016

[5] Googlebot überprüfen support.google.com. Abgerufen am 15.09.2016

[6] Crawling-Frequenz des Googlebots ändern support.google.com. Abgerufen am 15.09.2016

[7] Bot-Traffic und Spam-Zugriffe in Analytics netzstrategen.com. Abgerufen am 15.09.2016

[1]

[2]

[3]

[4]

[5]

[6]

[7]