Focused Crawler


Ein Focused Crawler (deutsch: fokussierter Crawler) konzentriert sich bei seiner Indizierung auf themenrelevante und besonders aktuelle Webseiten. Er steht damit im Gegensatz zur Universalsuchmaschine, deren Ziel es ist, möglichst viele der im Web vertretenen Websites abzubilden.

Grundlagen des Focused Crawlers[Bearbeiten]

Es ist schier unmöglich, das gesamte Internet komplett in einem Index festzuhalten. Dies hängt einerseits mit der natürlich begrenzten Performance der entsprechenden Crawler zusammen, andererseits aber auch mit dem schnellen Wachstum des Internets. Fokussierte Crawler beschränken sich auf einen bestimmten Bereich des Webs und indizieren diesen im Gegenzug besonders detailliert.

Im Allgemeinen bedeutet der Einsatz von Focused Crawlern, dass bevorzugt Websites eingelesen werden, denen eine besonders hohe Bedeutung zugemessen wird oder die sehr häufig aktualisiert werden. Google beispielsweise greift auf das Focused Crawling zumindest insoweit zurück als selten oder gar nicht aktualisierte Seiten wesentlich seltener besucht werden als regelmäßig veränderte Websites. Die Relevanz einer Website, die nicht aktualisiert wird, nimmt für den Google Algorithmus ab, da nicht aktualisierte Inhalte in den meisten Fällen früher oder später veralten.

Einsatzbereiche[Bearbeiten]

Ein typischer Einsatzbereich für Focused Crawler ist der Aufbau von digitalen Bibliotheken zu einem bestimmten Wissensbereich. Die Menge der erfassten Dokumente ist hier weniger ausschlaggebend als der hohe Qualitätsanspruch. In diesem Bereich gilt der Grundsatz „Qualität vor Quantität“. Der höhere Zeitaufwand, der für die Erkennung der Qualität erforderlich ist, kann hingegen durch das insgesamt verringerte Indizierungsvolumen ausgeglichen werden.

Ein Focused Crawler durchforstet das Netz auf der Suche nach themenrelevanten Website zu einem bestimmten Bereich und lässt dabei themenfremde Seiten komplett unter den Tisch fallen.

Vorteile[Bearbeiten]

Da ein Focused Crawler nicht den Anspruch hat, das gesamte Web zu indizieren, sondern nur einen relativ enggefassten Teilbereich, ist der erforderliche Rechenaufwand wesentlich geringer. Es werden weniger Netzwerkressourcen belegt. Zugleich kann auf diese Art und Weise allerdings eine relevante Dokumentsammlung mit einer besonders hohen Qualität und Aktualität aufgebaut werden. Die Aktualität der Inhalte kann durch kürzere Besuchsintervalle gewährleistet werden. Der Crawler vermindert den Anteil unnützer Informationen und bündelt zugleich thematisch relevantes Wissen.

Bedeutung für die Suchmaschinenoptimierung[Bearbeiten]

Ziel der Suchmaschinenoptimierung ist, dass eine Website in den SERPs besser rankt. Um dieses Ziel zu erreichen, muss Google eine Website als relevant erachten. Der Focused Crawler erkennt Websites als besonders relevant, die häufig aktualisiert werden. Für den Suchmaschinenoptimierer ergibt sich daraus die Aufgabenstellung, regelmäßig für neue Inhalte zu sorgen. Diese sollten im Idealfall einen hohen Mehrwert liefern und unique sein, um dem Qualitätsanspruch von Google gerecht werden zu können. Reduziert die Suchmaschine aufgrund selten aktualisierter Inhalte die Besuchshäufigkeit, so kann daraus auch ein schlechteres Ranking in den Suchmaschinenergebnissen resultieren.

Weblinks[Bearbeiten]