Bingbot
Der Bingbot ist der Crawler der Suchmaschine Bing. Er durchsucht das Web nach HTML-Dokumenten, um diese in sein Verzeichnis, den Bing Index, aufzunehmen und bei Suchanfragen von Nutzern in einer sortierten Liste auszugeben.
Die Suchmaschine Bing gehört zu Microsoft, ebenso wie Yahoo. Microsofts Live Search wurde durch den Bingnot am 01.Oktober 2012 abgelöst.[1] Derzeit liefert der Bing Bot also Ergebnislisten für Bing und Yahoo, wobei Yahoo noch den Crawler Slurp betreibt, der die Ergebnislisten aber nur noch anreichern soll. Als Crawler oder Spider durchsucht der Bingbot das weltweite Internet und folgt den darin enthaltenen Hyperlinks, um den Inhalt der Websites auszulesen. Dieses Verfahren läuft automatisiert ab und ähnelt dem Google Bot, dem funktionsähnlichen Crawler von Google.
Einen theoretischen Hintergrund für das Crawlen oder Spidern von Websites bildet die Graphentheorie, ein Teilgebiet der Mathematik. Websites können als Bäume dargestellt werden, die eine Wurzel haben, das sogenannte Rootverzeichnis. Von dieser Wurzel verästeln sich Zweige, die auch als Pfade angesehen werden können, also die Hyperlinks. An jedem Knotenpunkt kann es mehrere Verästelungen geben und jeder Knoten stellt ein Dokument dar. Der Bot versucht nun, alle Dokumente auf dem schnellsten Weg zu besuchen, um deren Inhalte in Form von Text, Bildern und weiteren Daten wie Links auszulesen. Der Bot bahnt sich seinen Weg durch den Baum bzw. Graphen und speichert die Links, die er anschließend verfolgt.
Die Art und Weise, wie er Inhalte ausliest und vor allem bewertet, ist abhängig von verschiedenen Modellen aus dem Bereich des Information Retrieval, einem interdisziplinären Gebiet zwischen Mathematik, Informatik und Linguistik. Das Information Retrieval, die Informationsrückgewinnung zielt darauf ab, aus bestehenden Daten - hier: das weltweite Web - die gefundenen Informationen zu speichern, zu sortieren und zu indexieren. Die genauen Kriterien dieses Verfahrens bzw. die verwendeten Modelle sind jedoch nicht hinlänglich bekannt – weder bei Bing noch bei Google. Vermutet wird, dass alle Suchmaschinen eine Kombination verschiedener Modelle verwenden: Boolsche Logik, Vektorraum-Modelle und prohabilistische Modelle.[2]
Bedeutung für SEO
Im Allgemeinen ist es wichtig, dem Bingbot Zugang zu einer Website zu gewähren. Zwar hat Bing im Vergleich zu Google weitaus weniger Marktanteile, die Tendenz ist jedoch steigend. Insofern als eine Website im Index von Bing und Yahoo zu finden sein soll, ist es deshalb empfehlenswert, entsprechende Schritte zu unternehmen. In der Praxis gibt es verschiedene Möglichkeiten: Die robots.txt so anpassen, dass die Crawler der Suchmaschinen Zugang haben. Per <meta>-Tags Direktiven wie dofollow bzw. nofollow für einzelne Dokumente angeben. Oder den HTTP-Header so umschreiben, dass die IP-Adressen des Bingbots zugelassen sind.
In den letzten zwei Jahren ist es vermehrt zu Fake Spidern gekommen, die sich als Bingbot getarnt haben. Die Fake Spider Bots lesen Inhalte aus, ohne dass diese irgendwelche Relevanz für die Suchmaschinen haben. Hier geht es lediglich um Daten für Phishing oder andere Hackerangriffe. Die Methoden, um Bots den Zugang zu gewähren, lassen sich ebenso verwenden, um Fake Bots auszuschließen. Bing bietet deshalb auch eine Verifikation des Bingbots an.[3]
Einzelnachweise
- ↑ Einführung des Bingbots. Bing Webmaster Blog. Abgerufen am 13. November 2013.
- ↑ Modelle des Information Retrieval. Wissensexploration. Abgerufen am 13. November 2013.
- ↑ Verify Bingbot. Bing Webmaster Help. Abgerufen am 13. November 2013.
Weblinks