« Zurück zum Magazine

Do’s and Don’ts – Der richtige Umgang mit Duplicate Content

Webseiten, die Duplicate Content aufweisen, stellen ähnliche oder identische Inhalte auf unterschiedlichen URLs dar. Die betroffenen Webseiten bieten jedoch eines vor allem nicht: einen Mehrwert für Suchmaschinen oder Webseitenbesucher.

Dieser Artikel zeigt wie Duplicate Content entsteht und warum man zwischen verschiedenen Arten von Duplikaten unterscheiden sollte. Außerdem erhältst Du Tipps zum richtigen Umgang mit Duplicate Content, um diesen zu beheben und von Beginn an einer Entstehung vorzubeugen.

Wie entsteht Duplicate Content?

Google selbst definiert Duplicate Content wie folgt:

"Duplizierter Content sind im Allgemeinen umfangreiche Contentblöcke, die anderem Content auf derselben oder einer anderen Domain entsprechen oder auffällig ähneln."
(Quelle: Google Search Console Hilfe)

Als Duplicate Content werden somit alle Inhalte bezeichnet, die unter verschiedenen URLs oder auch verschiedenen Domains zu finden sind.

Die häufigsten Ursachen für Duplicate Content sind:

  • Druckversionen von URL Seiten

  • Produkte in Onlineshops, die über einen Produktfeed geliefert werden

  • Keine Standard Domain-Logik (z.B. www.domain.tld vs. domain.tld)

  • Inkonsistente URL Struktur

– GET-Parameter

– Groß- und Kleinschreibung

– Tralingslash

– SessionIDs

  • PDF Versionen

Duplicate Content Penalty

Oft wird in Zusammenhang mit Duplicate Content auch von einer Penalty gesprochen, also einer aktiven Bestrafung seitens Google, wenn die eigenen Inhalte unter mehreren URLs existieren. Google Webmaster Trends Analyst John Mueller sagt dazu:

"There's no reason to penalize a website for having that & certainly at Google there's no duplicate content penalty when it comes to your own content."
Quelle

Duplicate Content auf der gleichen Domain stellt für Google zwar keinen Grund dar, den Webmaster zu bestrafen, allerdings verschenkt man durch Duplikate enorm viel Potential. Google versucht für jede Suchanfrage immer die bestmöglichen Ergebnisse zu liefern. Wenn das beste Ergebnis auf einer Domain unter verschiedenen URLs zu finden ist, versucht der Google Algorithmus selbst die beste URL zu identifizieren. Das kann im Idealfall die Hauptseite, aber auch ebenso wahrscheinlich eine vollkommen falsche URL sein.

Eine große Anzahl an Duplikaten auf einer Seite verursacht einen hohen Verbrauch an Crawler Ressourcen, die eine Suchmaschine aufbringen muss um duplizierte Inhalte zu verarbeiten. Im schlimmsten Fall werden auf diese Weise neue Inhalte erst viel später indexiert bzw. wahrgenommen. Optimalerweise versucht man bereits auf technischer Ebene Duplicate Content zu vermeiden.

Domainübergreifend wird Duplicate Content von Google hingegen anders bewertet.

Eine Suchmaschine kann nicht feststellen, ob Inhalte absichtlich dupliziert wurden, um die Suchergebnisse zu manipulieren.

"Gelegentlich wird Content jedoch bewusst auf verschiedenen Domains dupliziert mit der Absicht, das Ranking bei Suchmaschinen zu beeinflussen oder mehr Zugriffe auf sich zu ziehen. Derart unfaire Verhaltensweisen können zu einer negativen Nutzererfahrung führen, da den Besuchern im Grunde derselbe Content in einer Reihe von Suchergebnissen angezeigt wird."
Quelle

Stellt Google auf mehreren unterschiedlichen Domains identische Inhalte fest, wird versucht der Original Content zu identifizieren. In den Suchergebnissen werden Duplikate unterdrückt:

Abbildung 1: Google unterdrückt Duplicate Content in den Suchergebnissen.

Vermutet Google hinter den Cross-Domain Duplicates einen bewussten Manipulationsversuch, werden schwerwiegendere Strafen angedroht. Dies kann in besonders schlimmen Fällen auch Maßnahmen gegen die komplette Domain bedeuten:

"... duplizierter Content mit der Absicht angezeigt wird, das Ranking zu manipulieren oder unsere Nutzer zu täuschen, nehmen wir die entsprechenden Korrekturen am Index und Ranking der betreffenden Websites vor. Infolgedessen werden diese Websites unter Umständen in den Suchergebnissen niedriger eingestuft oder sogar aus dem Google-Index entfernt und damit nicht mehr in den Suchergebnissen angezeigt."
Quelle

Wie kann man Duplicate Content identifizieren?

Google selbst unterscheidet zwischen internem und externem Duplicate Content. Doch wie identifiziert man diese zwei Arten?

Internen Duplicate Content identifizieren

Mithilfe von Ryte können interne Duplikate in wenigen Schritten erkannt werden. Dafür ruft man im Website Success den Report "Inhalt" → "Duplicate Content" → "Duplikate" auf. Im Report werden alle vom Crawler gefundenen Duplikate der Webseite aufgelistet und wie viele Duplikate die betroffene URL besitzt. Mit einem Klick auf die Lupe in der Spalte "Duplikate Zähler" werden alle Duplicate Content URLs angezeigt.

Tipp: Möchte man alle Duplikate der Webseite angehen, kann man sich einen Gesamtexport der Duplikate inklusive der Duplicate Content URLs ausgeben lassen. Über das Zahnrad-Symbol in der Tabelle wählt man einfach die Option CSV-Export aus und kann sich so den Datensatz extrahieren.

Externen Duplicate Content identifizieren

Um externen Duplicate Content zu identifizieren sollte man sich zunächst drei wichtige Fragen stellen:

1. Wer erstellt den Content?

2. Wird dieser Content noch an anderen Stellen auf der Webseite verwendet?

3. Gibt es Partnerschaften oder ähnliches, die den Content mitnutzen?

1. Wer erstellt den Content?

Zunächst sollte man herausfinden, woher der Content auf der eigenen Seite stammt. Gibt es eine eigene Redaktion oder werden die Inhalte eingekauft? Gerade bei Onlineshops stammen die Produktbeschreibungen oftmals aus einem automatisierten Datenfeed und sind somit potentieller Duplicate Content. In solchen Fällen empfiehlt es sich, eigene Texte für die wichtigsten Produkte zu erstellen. Bei einem schnell wechselnden Bestand wiederum kann es sinnvoll sein, die Produktseiten vom Index auszuschließen und optimierte Kategorie- bzw. Landingpages zu erstellen, auf denen die Produkte aufgelistet werden.

Abblildung 2: 1:1 Kopien der Produktbeschreibung von Amazon.de in vielen anderen Onlineshops.

2. Wird dieser Content noch an anderen Stellen auf der Webseite verwendet?

Große oder internationale Firmen vertreiben ihre Produkte meist über verschiedene Kanäle und in weiteren Ländern. Um eine einheitliche Markenbotschaft zu vermitteln, werden Beschreibungstexte und Slogans oftmals unverändert an anderen Stellen übernommen.

Es empfiehlt sich daher immer zu fragen, welche Bereiche es noch im Unternehmen gibt, die das gleiche Produkt vermarkten. Wird in mehreren Ländern in der gleichen Sprache kommuniziert, sollte der hreflang Tag verwendet werden. Mit dessen Hilfe kann man der Suchmaschine kommunizieren, dass beispielsweise der englische Text für unterschiedliche Länder gedacht ist.

Abbildung 3: Identische Inhalte bei der Vermarktung von Microsoft Office 2016.

3. Gibt es irgendwelche Partnerschaften oder ähnliches, die den Content mitnutzen?

Wer seine eigenen Produkte vermarktet, kann mit einer guten internen Kommunikation domainspezifischen Duplicate Content einschränken. Schwer wird dies allerdings bei Kooperationen: Eine Vielzahl an Onlineshop-CMS können auf Wunsch einen Data-Feed aller Produkte inklusive Produktbeschreibungen anbieten. Partner können auf diese Weise sehr leicht alle Produkte in ihren Onlineshop integrieren, mit dem Nebeneffekt Duplicate Content zu erzeugen.

Onlineshops sollten daher für Kooperationen mit Partnern einen separaten Data-Feed anbieten, der nicht automatisch aus dem eigenen CMS befüllt wird, sondern über eigene Beschreibungstexte verfügt. Alternativ kann man den Partner auch darum bitten die Duplikate mit einem Cross-Domain Canonical-Tag zu versehen oder die Seite auf NoIndex zu stellen.

Abbildung 4: Per Produkt-Feed vom Onlineshop direkt zu ebay.de

Duplicate Content kann auch ohne die eigene Kenntnis entstehen, wenn sich Personen ungefragt an den Inhalten anderer Seite bedienen. Das bekannteste Tool zur Identifizierung von Seiten, die den eigenen Content ungefragt nutzen ist http://www.copyscape.com/. Falls es nicht möglich ist mit dem Seitenbetreiber in Kontakt zu treten, kann man auch einen Antrag auf Entfernung in der Google Search Console über das DMCA Dashboard anfordern.

Abbildung 5: DMCA Dashboard in der Google Search Console.

Wie geht man mit internem Duplicate Content um?

Technische Lösung zur Behandlung von Duplikaten

Durch internen Duplicate Content wird wertvolles Potential verschenkt, es ist daher nicht nur wichtig die Anzahl von Duplikaten zu reduzieren, sondern auch die notwendigen technischen Voraussetzungen zu schaffen.

Um Duplicate Content zu vermeiden, gibt es technisch gesehen verschiedene Lösungswege. Jedoch eigenen sich nicht alle Methoden dafür, das Problem in seinem Ursprung zu lösen. Daher sollte man sich im Vorfeld die folgenden Fragen stellen:

1. Kann ich den DC technisch verhindern z.B. durch das Vermeiden von GET-Parameter?

2. Kann ich per 301-Redirect auf das Original weiterleiten?

Schnelle Lösungen zur Behandlung von Duplikaten

Erst wenn im Rahmen dieser Fragen alle möglichen Maßnahmen durchgeführt worden sind, sollte man sich mit den folgenden Lösungswegen zur Beseitigung von Duplicate Content vertraut machen. Aber Vorsicht: Gerade bei großflächigen Duplicate Content Problemen können "schnelle" Lösungen zu neuen Problemen führen.

Canonical-Tag: Der Canonical-Tag ist eine schnelle Lösung um Duplicate Content zu verhindern. Er kann und sollte punktuell eingesetzt werden, aber auf keinen Fall sollte er dazu genutzt werden um Duplicate Content großflächig zu lösen. Trotz Canonical-Tags müssen Suchmaschinen die entsprechenden URLs analysieren um den Canonical-Tag zu sehen. Dieser Prozess kann bei einer großen Anzahl an betroffenen Seiten enorme Crawler Ressourcen verschwenden.

NoIndex: Die Meta-Robots Angabe NoIndex verhindert, dass Inhalte in den Google Index aufgenommen werden. Ähnlich wie beim Canonical-Tag sollte man dieses Attribut nicht als Lösung für größere Duplicate Content Probleme nehmen, da Google diese URLs immer wieder analysiert und so wertvolle Crawler-Ressourcen benötigt werden.

Robots.txt: Setzt man die robots.txt ein, um Duplicate Content zu verhindern, verbietet man Suchmaschinen zwar den Zugriff auf die Duplikate, verhindert dadurch allerdings auch, dass die Linkpower sich auf der Seite verbreitet.

NoFollow: Mit dem Link Attribut NoFollow wird der Suchmaschine zwar kommuniziert, den Link nicht zu berücksichtigen, die Verwendung verhindert jedoch keine Indexierung. Denn der Duplicate Content kann auch von anderer Stelle, intern wie extern, verlinkt werden.

Spezialfall: Identische Inhalte für unterschiedliche Länder

Wenn eine Webseite die gleichen Inhalte in einer Sprache aber in verschiedenen Ländern verwendet, handelt es sich technisch gesehen um Duplicate Content. Ein häufiger Fall sind deutsche Inhalte einer Webseite, die sowohl für Deutschland, die Schweiz und Österreich verwendet werden.

Um dieses Problem zu lösen unterstützt Google das hreflang Attribut. Dabei referenziert die betroffene URL alle Sprach-Länder Versionen. Das hreflang Attribut ist ein sehr mächtiges Instrument, darum sollten hier keine Fehler passieren. Durch einen einzigen Fehler in der Verwendung können im schlimmsten Fall komplette Rankings in einem Land verloren gehen. Hier eine Auflistung der häufigsten Fehler, die man vermeiden sollte:

  • Falsche Sprach- und Länderkennung -> richtigen ISO-Code verwenden

  • Nicht existierende URLs referenzieren -> 404 oder Weiterleitungen vermeiden

  • Widersprüchliche hreflang Attribute an verschiedenen Stellen hinterlegen -> nur an einer Stelle verwenden

Ryte überprüft bei jedem Analyse-Vorgang die Verwendung der hreflang Attribute. Im Report "Mehrsprachigkeit" → "Sprachen" kann überprüft werden, welche Sprachen ein Webdokument als dessen Übersetzung referenziert. Hier kann man mit einem Blick ebenfalls die Seiten erkennen, die keine Übersetzungen referenziert.

anzahl-übersetzungen

Abbildung 6: Anzahl der Übersetzungen in Website Success überprüfen

Im Report "Mehrsprachigkeit" → "Status Codes" sollte man besonders auf die Status Codes Gruppen 3xx und 4xx achten. Falls möglich sollte man vermeiden Seiten zu referenzieren, die weiterleiten oder nicht mehr existieren. Mit einem Klick auf den entsprechenden Status Code wird auch die darunter angezeigte Tabelle gefiltert und zeigt ausschließlich die betroffenen Verweise an.

Fazit

Duplicate Content ist ein sehr umfangreiches Thema, für welches es diverse Lösungenswege gibt. Um die passende Lösung zu finden, sollte man daher immer darauf achten, welche Art von Duplicate Content vorliegt. Während interner Duplicate Content wertvolles Potential kostet, kann es bei externenm Duplicate Content zu schlimmen Folgen kommen.

Wichtige Regeln bei Duplicate Content:

  • Verwende wenn möglich dauerhafte 301-Weiterleitungen

  • Achte auf ein einheitliches URL-Schema z.B. alle URLs enden mit einem Trailingslash oder mit .html

  • Definiere eine Standard Domain – entscheide Dich für eine Domain-Variation

  • Nutze das hreflang-Tag bei internationalen Seiten

  • Achte bei Kooperationen darauf wie der Content verwendet wird und biete gegebenenfalls eine extra Variante an

  • Vermeide wiederkehrende Textbausteine

Eine technisch optimale Lösung bedeutet in den meisten Fällen zwar einen größeren Aufwand, allerdings ist dies die nachhaltigste und skalierbarste Lösung zur Beseitigung von Duplicate Content.

Deine Webseite enthält Duplicate Content? Entdecke es mit Ryte!

Veröffentlicht am Aug 8, 2016 von Stephan Walcher