« Zurück zur Übersicht

Identifikation und Vermeidung von Near Duplicate Content mit Ryte

Unser Duplicate-Content Report ist um einen Unterreport reicher: In Zukunft können Kunden mit Hilfe des Near Duplicate Content Reports die Inhalte ihrer Seite noch differenzierter analysieren. Was der Unterschied zwischen Duplicate Content und Near Duplicate Content ist, soll dieser Artikel erklären.

Bei unserem Expert Event haben wir es bereits kurz angekündigt – an dieser Stelle nun noch einmal öffentlich: Ab sofort können unsere Kunden mit dem “Near Duplicate Content” Report noch tiefere Einblicke in ihre Seite erhalten. Gerade Panda-geschädigten Webseiten kann dieser Report helfen, inhaltliche Schwachstellen der Website aufzudecken.

Wie definieren wir “Duplicate Content”?

Um den Unterschied aufzeigen zu können, möchte ich noch einmal kurz erklären, was wir unter “Duplicate Content” verstehen. Dieser Report hat in den vergangenen zwei Jahren sehr viele Änderungen durchlebt. In der ersten Version von Ryte haben wir noch die “Texteinzigartigkeit” von Inhalten berechnet. Dies war eine tolle Metrik, da sie prozent-genau ausrechnen konnte, wie viel “Unique Content” eine Seite besitzt. Das Problem war jedoch: Sie skaliert nicht. Als wir im Zuge von Website Success die Anzahl der analysierten Seiten in den Millionen-Bereich hochgezogen haben, konnte diese Metrik nicht mehr mithalten. Daher haben wir nach einem Ersatz gesucht. Das Resultat ist ein Fingerprint, der auf den Inhalt der Seite berechnet wird. Dies ist das gleiche Vorgehen wie bei anderen Tools.

Wir benutzen für den Fingerprint übrigens nur den Inhalt der Seite und nicht den Quelltext. Außerdem schmeißen wir alle Zahlen raus, bevor wir den Fingerprint berechnen. Das tun wir, weil schon ein einzelnes Zeichen den Fingerprint verändern könnte. Wenn eine Seite verschiedene Metriken, wie zum Beispiel “Wie schnell wurde diese Seite geladen?” anzeigt, würde jedes Mal ein anderer Fingerprint entstehen. Dies soll verhindert werden, indem wir die Zahlen ausschließen.

Diesen Fingerprint benutzen wir dann, um ihn mit anderen Seiten zu vergleichen. Wenn wir eine andere URL mit dem gleichen Fingerprint finden, informieren wir die Benutzer im “Duplicate Content” Report darüber und der Benutzer kann entscheiden, was zu tun ist. Bei diesem Vergleich werden übrigens nur indexierbare Seiten verglichen. Seiten die mit Canonical auf eine andere Seite zeigen oder ähnliches (Robots.txt Block, Noindex, …) werden dabei nicht miteinbezogen.

Was ist “Near Duplicate Content”?

Wer bei der Definition von “Duplicate Content” genau mitgelesen hat, dürfte bereits aufgeschreckt sein: Ein einziges abweichendes Zeichen kann genügen, damit zwei Seiten nicht mehr als Duplicate Content gelten. Dieser Umstand treibt uns seit Jahren an, die DC-Problematik besser zu lösen. Früher konnten wir das mit der sehr exakten Texteinzigartigkeit tun, fortan über die “Near Duplicate Content” Berechnung.

Auch dieser Algorithmus arbeitet mit Fingerprints – allerdings mit einer Vielzahl pro Seite, die auf Bit-Ebene verglichen werden und so mehr Aufschluss darüber geben, wie ähnlich sich verschiedene Texte sind. Man kann berechnen, wie viele Änderungen an Text A nötig sind um zu Text B zu kommen. Wir testen diesen Algorithmus nun schon seit 8 Monaten und mittlerweile ist die Anzahl der “False Positives” so gering, dass wir Euch den Report schon einmal zeigen wollen.

Ziel des Ganzen ist: Sehr ähnliche Seiten zu finden, bei denen vielleicht 2-3 Sätze anders sind, aber im Großen und Ganzen doch kein großer Mehrwert vorhanden ist. Oder Produktseiten à la “Adidas Schuh Größe 38” und “Adidas Schuh Größe 40” – wo der einzige Unterschied in der Größenangabe besteht, aber nicht wirklich mehr Informationsgehalt vorliegt.

So sieht das Ganze dann in der Übersicht aus: Der Graph kumuliert die Anzahl der gefundenen kritischen Near Duplicates pro Seite.

Mit Klick auf die Lupe rechts neben der Zahl kannst Du Dir im Inspektor die Detailansicht anzeigen lassen.

Warum ist das wichtig?

Wer die Patente von Google und anderen Suchmaschinen studiert, wird feststellen, dass solche “Near Duplicate Content” Algorithmen sehr wichtig sind: Sie helfen den Suchmaschinen bei der Aussteuerung ihrer Crawler. Wenn eine Seite immer wieder ähnliche Inhalte ausspielt, die im Vergleich zu den vorherigen keinen Mehrwert liefern, werden die Suchmaschinen ihre Ressourcen lieber in Domains investieren, bei welchen die Chance höher ist, hochwertigen Inhalt zu finden.

Wenn eine Seite eine zu hohe Ähnlichkeit mit einer vorherigen Seite hat, führt dies dazu, dass die Crawler der Suchmaschinen diese Seite verwerfen und auch ihren Links nicht folgen. Dieses Vorgehen teilen wir natürlich nicht mit den Suchmaschinen – schließlich ist unser Anliegen, möglichst alle Inhalte einer Domain aufzuzeigen, damit Ihr einen Überblick davon bekommt, was eigentlich alles in Eurer Website schlummert und eventuell Eure Domain-Metriken negativ beeinträchtigt.

Natürlich können solche Algorithmen auch dazu benutzt werden, ganze Spam-Projekte zu enttarnen. Wenn jede Seite einer Domain nicht wirklich unique ist, ist es nur eine Frage der Zeit bis der Panda Filter zuschlägt.

Wo finde ich “Near Duplicate Content”-Probleme in Ryte

Der neue Report “Near Duplicate Content” befindet sich im Hauptmenüpunkt “Inhalt” unter “Duplicate Content” > “Ähnliche Seiten”. Er hilft Dir dabei, sehr ähnliche Seiten innerhalb Deiner Webseite zu enttarnen. Die Detail-Ansicht im Inspektor klassifiziert zwischen “Sehr kritischem Near Duplicate Content” bis hin zu “Potentiellem Near Duplicate Content”.

Ryte-Nutzer erzielen +93% Klicks nach 1 Jahr. Erfahre wie!

Veröffentlicht am Mar 31, 2015 von Editorial Team