Duplicate Content


Der Begriff Duplicate Content (deutsch: doppelter Inhalt) stammt aus der Suchmaschinenoptimierung. Doppelte Inhalte entstehen, wenn gleiche Inhalte mit unterschiedlichen URLs erreichbar sind und mit unterschiedlichen URLs indexiert werden. Die Indexierung von Webseiten mit Duplicate Content kann sich negativ auf das Ranking in den SERPs auswirken.

Ausprägungen von Duplicate Content

Duplicate Content kann in folgenden Fällen entstehen:

  • Inhalte werden syndiziert, verkauft oder illegal kopiert. Dann verwenden verschiedene Webseiten die gleichen Inhalte. In diesem Fall kann der Duplicate Content dem Urheber schaden.
  • Der Inhalt einer Webseite wird versehentlich unter anderen Domains oder Subdomains (z.B. mit und ohne “www”) angezeigt.
  • Inhalte werden in verschiedenen Kategorien doppelt verwendet. Das kann passieren, wenn Inhalte einer URL auch in einem News-Bereich veröffentlicht werden.* Das Content Management System kann dem Inhalt keine eindeutigen URLs zuweisen.
  • In Onlineshops ergeben verschiedene Attribut-Filter gleiche Produktlisten.
  • Eine Webseite gibt die gleichen Inhalte in der gleichen Sprache für verschiedene Länder aus.

Man spricht von “Near Duplicate Content” bei sehr ähnlichen Inhalten, die ebenfalls zu Problemen führen können. Vielfach kopierte Textbausteine, wie etwa Teaser oder auf jeder Seite wiederkehrende Texte, können von Suchmaschinen als Duplicate Content behandelt werden, auch wenn der restliche Content unterschiedlich ist.

Hintergrund

Google hat durch unterschiedliche Anpassungen seiner Algorithmen erreicht, dass die Suchmaschine doppelte Inhalte sehr gut herausfiltern kann. Sowohl das Brandy Update aus 2004 als auch das Bourbon Update aus 2005 verbesserten die Fähigkeit der Suchmaschine Google, Duplicate Content zu erkennen.

Konsequenzen von Duplicate Content

Doppelte Inhalte stellen Suchmaschinen vor ein Problem. Sie müssen entscheiden, welche der doppelten Seiten am relevantesten zu einer Suchanfrage ist. Grundsätzlich wird von Google zwar betont, dass „Duplizierter Content auf einer Website […] kein Grund für Maßnahmen gegen diese Website [ist]“. Allerdings behält sich der Suchmaschinenprovider vor, bei manipulativen Absichten die entsprechende Website abzustrafen: „In den seltenen Fällen, in denen wir annehmen müssen, dass duplizierter Content mit der Absicht angezeigt wird, das Ranking zu manipulieren oder unsere Nutzer zu täuschen, nehmen wir die entsprechenden Korrekturen am Index und Ranking der betreffenden Websites vor.“ [1] Webmaster sollten demnach nicht Google die Interpretation überlassen, ob Duplicate Content unbeabsichtigt oder bewusst verursacht wurde und doppelte Inhalte vermeiden. DuplicateContent.png

Konsequenzen von Duplicate Content

2021 gab Google bekannt, dass doppelter Content in bestimmten Fällen unproblematisch ist. Hintergrund war unter anderem die Tatsache, dass in Online-Shops bei Produktbeschreibungen kopierte Beschreibungen nicht oder nur schwer zu vermeiden sind. Laut Google wird in solchen Fällen das Ranking nicht negativ beeinflusst. Gleiches gilt für doppelte Text im Header oder Footer einer Seite. Genaugenommen sind Footer zwar im klassischen Sinne doppelter Content, Google akzeptiert diesen aber hier. Das Unternehmen betonte, dass es in Sektoren einer Seite durchaus zulässig ist, gleichlautende Texte zu verwenden. Auf welche URL mit identischen Texten dann aber verwiesen wird, hängt von der Relevanz der Seite ab. Nach wie vor schlechte Karten haben Seitenbetreiber, die ihre Website komplett mit Duplicate Content füllen. Google zeigt sich sehr konsequent, wenn der Verdacht besteht, dass ein bewusstes Täuschungsverhalten vorliegt. [2]. Bedeutsam ist ein weiterer Aspekt beim Umgang mit doppeltem Content. Wer aufgrund der Befürchtung, durch kopierte Texte ein schlechteres Ranking oder Schlimmeres zu erhalten, seine Texte kürzt, kann an Relevanz verlieren. Wenn etwa ein Reiseanbieter einen Text über einen Urlaubsort kürzt, weil er doppelte Inhalte enthält, entfernt damit womöglich wichtige Informationen, die den Gesamtkontext des Textes ausmachen. Die Beschreibung zum Strand beispielsweise mag doppelten Content enthalten, wird sie aber von der Seite genommen, fehlt eine wichtige Information, die dem Text seinen Wert verliehen hat. Google tendiert im Zweifel dazu, längeren Content mit mehr Aussagekraft zu favorisieren, selbst wenn dort Duplicate Content zu finden ist. Man sollte sich daher gut überlegen, ob man um jeden Preis einzigartige Inhalte publiziert oder im Zweifel Doppelungen von Texten in Kauf nimmt. [3].

Technische Ursachen für Duplicate Content

Doppelte Inhalte können verschiedene Ursachen haben, die häufig auf der fehlerhaften Konfiguration von Servern basieren.

Duplicate Content durch Subdomain Catch-All / Wildcards

Wenn eine Domain auf allen Subdomains gleich antwortet, liegt einer der elementarsten OnPage SEO Fehler vor. Das kann sehr leicht getestet werden, indem man einmal "www.DOMAIN.de" aufruft und danach "DOMAIN.de" (also ohne "www"). Wenn bei beiden Seiten die gleichen Inhalte angezeigt werden, obwohl in der Adresszeile jeweils eine andere Domain steht, sollten Webmaster schnell handeln. Im Worst-Case antwortet der Server sogar bei allen Subdomains – also zum Beispiel auch bei "kartoffel.DOMAIN.de". Diese weiteren Seiten mit gleichem Content werden auch Dubletten genannt. Um den Suchmaschinen die Entscheidung abzunehmen, welche URL die relevanteste ist, sollte deshalb der Server korrekt konfiguriert werden. Das funktioniert bei dem häufig verwendeten Apache Server zum Beispiel mit dem Modul mod-rewrite. Mit Hilfe einer .htaccess Datei im Root-Verzeichnis der Webseite, kann man mit folgendem Code dem Server per 301-Redirect beibringen, nur auf die korrekte Domain zu antworten. Die übrigen Subdomains leiten automatisch zu der korrekten Domain um:

RewriteEngine On
# ! Bitte daran denken "DOMAIN" mit der jeweiligen Domain Deines Projektes auszutauschen !
RewriteCond %{HTTP_HOST} !^www.DOMAIN.de$ [NC]
RewriteRule (.*) http://www.DOMAIN.de/$1 [R=301,L]

Als Vorüberlegung müssen sich Webmaster also entscheiden, was die Hauptdomain sein soll - also mit "www" oder ohne „www“. Bei internationalen Webseiten sollte auch eine Länderkennung als Subdomain in Erwägung gezogen werden (also z.B. "www.de.DOMAIN.com/").

Duplicate Content durch fehlende Trailing Slashes

Eine andere weit verbreitete Form von Duplicate Content tritt bei der Verwendung von Trailing Slashes auf. Dabei handelt es sich um URLs, die keinen Dateinamen enthalten, sondern auf Verzeichnisse zeigen. Also zum Beispiel:

http://www.DOMAIN.de/verzeichnis_a/verzeichnis_b/

Dadurch wird (standardmäßig) die Index Datei des Unterordners "verzeichnis_b" geladen. Je nach Konfiguration antwortet allerdings auch folgende URL auf gleiche Weise:

http://www.DOMAIN.de/verzeichnis_a/verzeichnis_b

Es fehlt also der letzte Slash. Dabei versucht der Server zunächst, die Datei "verzeichnis_b" zu finden, diese existiert nicht, dabei stellt aber der Server fest, dass ein solcher Ordner existiert. Da der Server keine unnötige Fehlermeldung auswerfen will ("Datei existiert nicht") wird stattdessen die Index-Datei dieses Ordners angezeigt. Das scheint eine gute Sache zu sein, nur wird leider daraus Duplicate Content (sobald ein Link auf diese "falsche" URL zeigt). Dieses Problem kann auf verschiedene Weise gelöst werden.

Best-Practice ist ein 301 Redirect via .htaccess sowie die Korrektur der fehlerhaften Links. Auf diese Weise wird Google zugleich unnötiger Crawl-Aufwand abgenommen. Das eingesparte Crawl-Budget steht dann an anderer Stelle der Webseite zur Verfügung.

Umgang mit Duplicate Content

Mit zu den Aufgaben der Onpage-Optimierung gehört es, nicht nur Duplicate Content zu vermeiden, sondern diesen zu identifizieren, um dann zielführend zu handeln. Hierbei kann ein sogenannter Duplicate Content Checker helfen. Er listet die URLs auf, welche ähnliche Inhalte zeigen. Wichtig ist vor allem, dass Webmaster und SEOs bei doppelten Inhalten handeln. Da die Indizierung über die Suchmaschinen-Robots immer schneller erfolgt, sind auch gleiche Inhalte schneller im Web. Demzufolge ist die Gefahr von Rankingverlusten, einer Abstrafung oder sogar der Ausschluss aus dem Index noch schneller möglich.

Texteinzigartigkeit zur Vermeidung von Duplicate Content

Von Duplicate Content sind häufig Online-Shops betroffen, die Produkttexte 1:1 von Herstellern übernehmen und diese auch für Preisvergleichsportale verwenden. Matt Cutts hat sich auch schon zu dieser Thematik geäußert.[4] Eine erste Konsequenz wäre es deshalb, unterschiedliche Texte für die eigene Homepage und Preisvergleiche oder externe Shoppingportale zu erstellen. Auch wenn es auf den ersten Blick wie eine Sisyphos-Arbeit erscheinen mag, zahlt sich das individuelle Betexten für verschiedene Seiten aus. Zum einen wird dadurch die eigene Seite als Marke gestärkt und zum anderen erhalten die Preisvergleiche ebenfalls individualisierte und somit für Google und den User interessantere Texte. Um Near Duplicate Content auf der eigenen Seite zu vermeiden, sollten Webmaster ihren Content genau prüfen und zum Teil überlegen, ob einige Kategorien zusammengelegt werden können. In manchen Fällen kann es außerdem sinnvoll sein, zum Beispiel Filter-Seiten mit dem Tag „noindex,follow“ auszuzeichnen. Suchmaschinen indexieren diese Seiten dann nicht, folgen aber den Links, die sich darauf befinden. Um einzigartige Inhalte zu erstellen, bieten sich Tools an, die die Formel WDF*IDF berücksichtigen.

Contentklau

Sollte externer Duplicate Content durch „Contentklau“ entstanden sein, muss der entsprechende Webmaster sofort mit der Bitte kontaktiert werden, die gleichen Inhalte entweder mit einer Nennung der Originalquelle zu versehen oder diese zu entfernen. Vielfach reicht eine einfache Bitte aus. Im Extremfall kann jedoch auch mit einer Abmahnung gedroht werden. Webmaster haben darüber hinaus die Möglichkeit, Seiten an Google zu melden, die durch kopierte Inhalte das Urheberrecht verletzen. Dieses Formular kann über die Google Search Console abgeschickt werden. [5]

301-Weiterleitung

Wenn externer Duplicate Content dadurch entsteht, dass ein Webmaster zwei Websites mit gleichen Inhalten auf zwei oder mehr verschiedenen Domains betreibt, reicht vielfach ein 301-Redirect, um doppelte Inhalte zu vermeiden. Eine weitere Möglichkeit besteht darin, Google über die Google Search Console zum Beispiel die bevorzugte Version einer Webseite mitzuteilen.

Canonical Tag, Noindex-Tag und Robots.txt

Bei internem Duplicate Content auf der eigenen Website stehen verschiedene Handlungsalternativen zur Auswahl. Ein wichtiges Instrument ist hier der Canonical Tag. Dabei wird auf der gedoppelten Unterseite auf die Originalseite verwiesen und die doppelte Seite bei der Indizierung nicht berücksichtigt. Wer ganz sicher gehen möchte, dass eine Unterseite mit Duplicate Content überhaupt nicht indiziert wird, kann diese mit dem noindex-Tag markieren. Um die doppelten Inhalte zusätzlich vom Crawling auszuschließen, können die betreffenden Unterseiten auch in der robots.txt entsprechend hinterlegt werden.

hreflang-Tags bei übersetzten Seiten

Google kann mittlerweile übersetzte Seiten sehr gut ermitteln und die Inhalte einer Originalseite zuordnen. Um auch an dieser Stelle doppelte Inhalte durch Übersetzungen oder gleiche Sprachen für unterschiedliche Zielmärkte zu vermeiden, kann das Tag verwendet werden, um die Region und die Sprache einzelner URLs auszuzeichnen. Auf diese Weise erkennt Google, dass Übersetzungen einer Seite vorhanden und die URL eine bestimmte Ausrichtung hat. Ein Beispiel: Ein deutscher Online-Shop bietet seine Waren auch in der deutschsprachigen Schweiz sowie in Österreich an. In diesem Fall ist die Zielsprache jeweils Deutsch. Allerdings verwendet der Shop für die Zielländer jeweils die entsprechende Länderendung .at und .ch. Um Duplicate Content zu vermeiden, wird zum Beispiel in den Header der deutschen Version gesetzt, um auf eine Variante für die Schweiz zu verweisen.

rel=alternate bei mobilen Subdomains

Auch bei der mobilen Optimierung können doppelte Inhalte entstehen. Das gilt vor allem dann, wenn für die mobile Webseite eine eigene Subdomain existiert. Duplicate Content kann dann mit Hilfe des rel=alternate-Tags vermeiden werden. Das Tag verweist von der Desktop-Version auf die mobile Version. Suchmaschinen erkennen dann, dass es sich um die gleiche Domain handelt und verhindern eine doppelte Indexierung.

Vorbeugung

Um internen Duplicate Content vorzubeugen, bietet es sich an, die Seitenhierarchie genau zu planen. So lassen sich im Vorfeld bereits mögliche Quellen für doppelte Inhalte ermitteln. Beim Anlegen von Produkten in Online-Shops sollten auch alle Vorkehrungen für die einfache Implementierung des Canonical-Tags getroffen werden. Auf der Textebene gilt: je individueller, desto besser für Google und den User und desto besser, um Duplicate Content zu vermeiden.

Duplicate Content Checker

Für die erste Analyse bieten sich sogenannte Duplicate Content Checker wie copyscape oder Ryte an. Diese Tools identifizieren zunächst ähnliche oder sogar gleiche Inhalte im Web. Vor allem Online-Shops, die ihre Produktdaten per CSV-Dateien an Preisvergleichsportale oder Verkaufsplattformen wie Amazon übermitteln, sind häufig von diesen Problemen betroffen. Matt Cutts hat sich auch schon zu dieser Thematik geäußert.[6]

Einzelnachweise

Weblinks