Shingle Algorithmus


Mit Hilfe des Shingle Algorithmus kann erkannt werden, ob ein Text einzigartig ist. Eine Textpassage kann dann mit einer beliebigen anderen verglichen werden und auf Duplicate Content untersucht werden.

Der Algorithmus

Schritt 1: Text normalisieren

Der Textabschnitt muss als reiner Text vorliegen. Bei Webseiten ist der Content innerhalb von HTML-Code, d.h. um den Algorithmus sinnvoll auf den Text anwenden zu können, muss aller Code und jede Formatierung entfernt werden. Zusätzlich ist es auch möglich Füllwörter zu streichen, mit denen Text künstlich verlängert werden kann, zum Beispiel “doch”.

Schritt 2: Text in Shingles unterteilen

Shingles sind sich überschneidende Satzteile des Textes, die aus einer festgelegten Länge von Wörten bestehen. Sie liegen quasi wie Schuppen (engl. Shingle) übereinander. Ein kurzes Beispiel mit Länge 3 anhand des Satzes “Dies ist kein kreativer Text, aber er reicht vollkommen aus.”

Shingle 1 = Dies, ist, kein

Shingle 2 = ist, kein, kreativer

Shingle 3 = kein, kreativer, Text

Shingle 4 = kreativer, Text, aber

...

Wenn die Länge zu groß gewählt wird, dann werden Duplikate übersehen. Wird der Wert zu klein gewählt, dann wird ein Text sehr schnell als Duplicate Content bewertet.

Schritt 3: Shingles von verschiedenen Texten vergleichen

Um festzustellen, ob zwei Texte übereinstimmen, genügt eine einfache Rechnung. Es wird die Schnittmenge der Shingles der beiden Texte gebildet und die Vereinigungsmenge der Shingles beider Texte. Es wird dann die jeweilige Anzahl durcheinander geteilt. Der Prozentsatz errechnet sich also, indem die Anzahl der übereinstimmenden Shingles durch die gesamte Anzahl der Shingles geteilt wird.

Werden zwei exakt gleiche Texte verglichen, ist das Ergebnis 1 und somit 100% Übereinstimmung. Wenn kein einziges Shingle identisch ist, steht im Zähler 0, was ein Ergebnis von 0% hervorruft.

Bedeutung für SEO

Unique Content ist ein Kriterium, nach dem Suchmaschinen Webseiten bewerten. Es ist denkbar, dass Google dafür den Shingle Algorithmus verwendet. Ein einfacherer Algorithmus, um Duplicate Content zu erkennen, ist die PHP Funktion PHP similar text(), welche die Ähnlichkeit zweier Strings berechnet.

Weblinks