Phrase Based Indexing

In erster Generation 2004 von Google patentiert und seitdem ständig erneuert und weiterentwickelt, gilt Phrase Based Indexing heute als Standardsystem, mit dem Suchmaschinen Webdokumente und Inhalte crawlen, erfassen, sortieren und zuordnen. Phrase Based Indexing ist eine Weiterentwicklung des Single Word Indexing, bei dem Content basierend auf einem spezifischen Schlagwort von Suchmaschinen definiert und gesucht wurde.

Bei Phrase Based Indexing wird neben dem eigentlichen Keyword auch das semantische Umfeld berücksichtigt, also das gesamte Satzgebilde. Von einer ins Suchfeld eingetippte Anfrage werden mehrere wichtige Wörter (unter Auslassung eventueller Stoppwörter) mit bestehendem Webcontent abgeglichen. Tauchen die Schlagwörter in einem engen, semantischen Zusammenhang auch im Dokument auf, wird die Website in den SERPs angezeigt. Je deckungsgleicher Suchphrase und Content ausfallen (unter Einbezug eventueller Stoppwörter), desto höher wird die Seite in den Suchergebnissen der Anfrage gerankt.

Funktionsweise[Bearbeiten]

Um Webinhalte auf Basis von Phrasen indexieren, suchen, ranken und beschreiben zu können, muss der Suchmaschinenalgorithmus analysieren, wie und in welchem Kontext abgeschlossene, syntaktische Einheiten, genannt Phrasen, im Internet hauptsächlich benutzt werden. Aufgrund dieser Analyse kann die KI die Phrasen in Kategorien wie „gut“ oder vielmehr „zulässig“ und „schlecht“, respektive „unzulässig“, einteilen.

Das heißt, beim Phrase Based Indexing berücksichtigt der Algorithmus einerseits, wie häufig Keywords in wiederkehrend gleicher oder ähnlicher Kombination mit anderen Wörtern verwendet werden. Andererseits analysiert er auch, in welchem Zusammenhang die verschiedenen Phrasen zueinander stehen könnten. Das ist etwa dann wichtig, wenn im gleichen Dokument mehrere Phrasen — also Satzgebilde rund um das eigentliche Keyword — verwendet werden und ihre Bedeutung im Kontext in gleichem Maße relevant ist. Die Zuweisung dieser Adjacency genannten Nachbarschaftsbeziehung ist für die KI wichtig, um vorhersagen zu können, mit welcher Wahrscheinlichkeit, mehrere, verwandte Phrasen in bestimmten Kontexten gemeinsam auftreten werden.

Diese Vorgehensweise ermöglicht dem Algorithmus, relevante und optimierte Inhalte noch besser von Spam-Inhalten zu unterscheiden. Letztere bestehen oftmals aus wenigen bis gar keinen nützlichen Informationen, sondern aus einer wahllosen Aneinanderreihung beliebter und teurer Keywords und Keyphrases. Man spricht in diesem Zusammenhang von Keywordstuffing, Überoptimierung oder Honeypots. Stellt die Suchmaschine also solch einen exzessiven Gebrauch von Phrasen innerhalb eines Webdokumentes fest, werden die Seiten als Spam definiert und nicht selten von Google abgestraft.

Die 3 wichtigsten Funktionen[Bearbeiten]

  1. Die Identifikation von Phrasen und damit in Zusammenhang stehenden, abgeschlossenen syntaktischen Einheiten, sowie deren Einteilung in „zulässig“ oder „unzulässig“.
  2. Die Indexierung von Webdokumenten und Content hinsichtlich der verwendeten Phrasen.
  3. Die Generierung und Verwaltung einer Phrasen basierten Taxonomie, zum Beispiel in Form von tabellarischen Datenbanken.

Die Bewertung zulässiger Phrasen[Bearbeiten]

Um feststellen zu können, welche Phrasen zulässig oder unzulässig sind, analysiert der Suchalgorithmus, in welcher Form und welchem Kontext Phrasen, dazu zählen auch Redewendungen und Idiome, in der Mehrheit der Webdokumente verwendet werden. Mithilfe von Markern wie HTML-Tags oder anderen morphologischen oder grammatikalischen Indikatoren, wird das Vorkommen der identifizierten Phrasen weiter differenziert. Hat die KI diese Identifizierung einmal gelernt, kann sie auf Basis dieses Wissens zulässige Phrasen erkennen und vorhersagen. Diese werden dann nämlich gesammelt und anhand von statistischen Daten, wie Häufigkeit der Verwendung und dem gemeinsamen Auftreten mit anderen, verwandten Phrasen klassifiziert.

Je weiter die Entwicklung der Semantic Search voranschreitet, desto differenzierter und präziser kann Phrase Based Indexing werden. Statt reiner Verwendungsfrequenz und Keyword Density, kann auch komplexe Sprache sehr viel dezidierter analysiert und Websites nach Relevanz gerankt werden. Der Algorithmus kann etwa aus der Häufigkeit, mit der mehrere Phrasen rund um das Keyword gemeinsam auftreten, die Beziehung auslesen, in der die Phrasen zueinander und zum Gesamtkontext stehen. Je öfter die gleichen oder ähnliche Phrasen gemeinsam in ähnlichem Kontext verwendet werden, desto enger deren „Verwandtschaftsgrad“. Und je deckungsgleicher die Formulierung der Suchanfrage mit der verwendeten Phrase im Content, umso relevanter wird dieser bewertet.

Bedeutung für SEO[Bearbeiten]

Den größten Einfluss nimmt Phrase Based Indexing bei der Einstufung von Websites nach Relevanz in Bezug auf die Suchanfrage, sowie auf die Linkanalyse.[1]

Phrasen basierte Content Relevanz[Bearbeiten]

Für die Relevanz einer Website könnte beim Phrase Based Indexing sogar die Verwendung eines Keywords langfristig an Bedeutung einbüßen. Dann etwa, wenn ein Content Piece Phrasen verwendet, die laut der Datenbank zulässiger Phrasen, an der sich der Algorithmus orientiert, im Großteil anderer Webinhalte in kontextuellem Zusammenhang mit einem bestimmten Keyword auftauchen und zu diesem dort in einem engen Beziehungsgrad stehen.

Phrasen basierte Link-Analyse[Bearbeiten]

Beim Phrase Based Indexing könnten natürliche Ankertexte den SEO-optimierten Linktexten über kurz oder lang den Rang ablaufen. Die Idee ist, dass, wenn der Ankertext für einen ausgehenden Link aus einer Phrase besteht, die zwar auf der Zielseite nicht verwendet wird, aber laut den Listen für zulässige Phrasen in enger Beziehung zu Phrasen steht, wie sie auf der Zielseite zu finden sind, diese Zielseite für die Phrase aus dem Anchor Text, der auf der verweisenden Website benutzt wird, als relevanter eingestuft wird.

Umstrittener Einsatz von Phrase Based Indexing[Bearbeiten]

Phrase Based Indexing ermöglicht Suchmaschinen, die Nutzerintention besser zu messen, verstehen und vorherzusagen. Durch die Indexierung auch kontextuell verwandter Phrasen, kann das semantische Verständnis der Suchmaschinenalgorithmen und somit die Präzision ausgegebener SERPs verbessert werden. Auch Googles Autovervollständigungsfunktion während der Eingabe von Suchanfragen, kann durch Phrase Based Indexing kontinuierlich verbessert werden.

Allerdings müssen für Phrase Based Indexing auch Server mit sehr viel höherer Speicherkapazität bereitgestellt werden, als dies beim Single Word Indexing (auch: Term Based Indexing) erforderlich ist. Und die Tokenisierung von Suchanfragen kann für die KI eine Herausforderung sein. Argumente, die oft angeführt werden, um die Annahme zu stützen, wonach Google, Yahoo und andere Suchmaschinen Phrase Based Indexing nicht verwenden würden.

Wenngleich von Google nie offiziell bestätigt, gibt es dennoch Hinweise darauf, dass dieses System bei der Indexierung und Ranking-Taxonomie zum Einsatz kommt. Eine Vielzahl von Patenten auf Phrase Based Indexing lässt zumindest die starke Vermutung zu.[2] Und, dass sie es anscheinend im Zuge ihres TeraGoogle Projektes getestet haben, unterstreicht diese Annahme. Erst recht seit die Initiatorin Anna Patterson, auf deren Programmierung Phrase Based Indexing basieren soll, Google vorübergehend verließ, um mit ihrem Patent eine Konkurrenzsuchmaschine (Cuil) zu etablieren. Auch von Yahoo sind ähnliche Patente über sogenannte Superunits registriert.[3]

Einzelnachweise[Bearbeiten]

  1. Phrase Based Indexing and Semantics briggsby.com. Abgerufen am 14. Mai 2019.
  2. Phrase-based indexing in an information retrieval system patents.google.com. Abgerufen am 14. Mai 2019.
  3. Systems and methods for search processing using superunits patents.google.com. Abgerufen am 14. Mai 2019.

Weblinks[Bearbeiten]