Canonical Tag


Für die Indexierung von Website-Inhalten darf jeder Content nur unter einer einzigen URL erreichbar sein. Möchte man den Inhalt auch auf anderen Seiten bereitstellen, muss die zweite URL auf die ursprüngliche Ressource verweisen. Andernfalls zählen diese gleichen Inhalte als Duplicate Content. Mindestens eine der beiden Webseiten wird von Google dann abgestraft - also vom Index genommen. Um das zu vermeiden, greift man auf sogenannte kanonische URLs zurück. Diese erhält man durch die Ergänzung um ein Canonical Tag im Head-Bereich des HTML-Codes. Das Canonical Tag ist eine Angabe im Quellcode einer Website. Es verweist auf eine Standardressource – die eine kanonische URL – bei Websites mit gleichen oder fast gleichen Inhalten. Wird eine kanonische URL korrekt ausgezeichnet, so wird nur die Originalquelle zur Indexierung der Suchmaschinen herangezogen. Damit kann vermieden werden, dass der gleiche Content auf unterschiedlichen Seiten von Google als Duplicate Content erkannt wird. Denn Suchmaschinen bewerten doppelten Content negativ, da kein Mehrwert für den Internetnutzer besteht.

Um Duplicate Content zu erkennen, kann ein Duplicate Content Checker verwendet werden.

Anwendungsfälle[Bearbeiten]

Angewendet wird das Canonical Tag immer dann, wenn Inhalte mehrfach verwendet werden oder eine eindeutige URL technisch nicht möglich ist:

  • Die Startseite ist über verschiedene URLs erreichbar (beispielsweise www.domain.de, domain.de, www.domain.de/index.html u.s.w.).
  • Seiten sind mit und ohne Trailing Slashes ("/") oder mit Klein- und Großschreibung aufrufbar (Case sensitivity).
  • Der Server achtet durch Rewriting der URL nur auf eine ID, lässt also Variationen der Adresse zu.
  • Es werden IDs (z. B. Session-ID oder Produktfilter) verwendet, die den Inhalt nicht ändern.
  • Der Inhalt wird in verschiedenen Ansichten dargeboten (z. B. in einer Druckversion, als PDF u.s.w.).
  • Es gibt https-Varianten der Seiten.
  • Die Seite ist noch über die veraltete http-Variante ohne SSL-Verschlüsselung abrufbar.
  • Inhalte werden auf anderen, externen Websites zusätzlich veröffentlicht.


Grundsätzlich ist es sinnvoll, das Canonical Tag auf jeder Unterseite einzubauen, sodass jede Seite auf sich selbst zeigt. Damit werden unerwartete Fehler und falsche Verlinkungen korrigiert oder vorgebeugt.

CanonicalTag.png

Zwei Varianten, eine kanonische URL anzugeben[Bearbeiten]

Es gibt grundsätzlich zwei Möglichkeiten, eine kanonische URL anzugeben. Bei beiden Varianten empfiehlt Google die Angabe von absoluten URLs – d.h. der gesamten Internetadresse.

  • Die Syntax der ersten Variante sieht folgendermaßen aus:
 

Das link-Element mit dem Attribut canonical wird im Head-Element des Quellcodes platziert und ergänzt die Meta-Angaben eines Dokumentes. Es verweist auf die Standardseite, wird aber nur dort verwendet, wo Seiten, die nicht als Originalressource behandelt werden sollen, identische Inhalte aufweisen.

Nehmen wir an, wir haben zwei Webseiten:

 http://www.beispiel.de/beispielseite.htm
 http://www.beispiel.de/beispielseite/?session_id=xyz.htm

Die erste soll die Standardressource sein. Die zweite ist eine Session, wie sie bei Onlineshops oft üblich ist, um benutzerbezogene Daten speichern zu können, z.b. hinterlegte Artikel in einem Warenkorb. Nun wird das Canonical Tag in das Head-Element der zweiten Seite integriert. Es enthält einen Verweis auf die Standardressource, die erste Seite. So wissen Google und Co., welche Seite bevorzugt behandelt und in den Index aufgenommen werden soll.

  • Wenn die Standardressource eine PDF-Datei oder ein anderer Dateityp ist, der von Google unterstützt wird, dann muss das Canonical Tag in den Header der Seite integriert werden. Die Syntax unterscheidet sich und die Einbindung erfordert Kenntnisse des Hypertext Transfer Protokolls (HTTP):
Link: <http://www.beispiel.de/beispielseite.pdf>; rel="canonical"

Dies ist keine Angabe im Dokument, sondern vielmehr eine Anweisung für die Antwort des HTTP-Protokolls: Kommt eine Anfrage vom Client (z.b. Browser oder eine Suchmaschine), sendet der Server die Antwort, dass diese Seite die kanonische URL ist. Mitunter ist eine neue Konfiguration des Servers notwendig.

Angenommen wir haben diese beiden Webseiten:

 http://www.beispiel.de/beispielseite.htm
 http://www.beispiel.de/beispielseite.pdf

Die zweite Seite soll die Standardressource sein. Da es eine PDF-Datei ist, muss das Canonical Tag in den Header der Seite integriert werden. Es verweist auf sich selbst und gibt Google den Hinweis, dass das PDF-Dokument als Standard zur Indexierung dienen soll.

Hintergrund[Bearbeiten]

Mithilfe von Canonical Tags können Webseitenbetreiber Suchmaschinen mitteilen, welche der Seiten mit identischen Inhalten als Standardressource zu behandeln sind. Um dem Problem des Duplicate Contents Herr zu werden, ist ein korrekt verwendetes Canonical Tag die erste Wahl. Dadurch nehmen Webmaster auch Einfluss auf die Linkpopularität bestimmter Seiten mit identischen Inhalten und bündeln gleichzeitig die Reputation dieser Seiten auf einer kanonischen URL.

Anwendungsfälle[Bearbeiten]

  • Canonical Tags und Paginierung: Bei einer Paginierung von Webseiten mit rel=”next” und rel=”prev” sollte
    • entweder jede Unterseite per Canonical auf sich selbst
    • oder auf eine “View-All-Seite” verweisen, auf der alle Produkte in einer Übersicht dargestellt werden.

Besser wäre, in Verbindung mit rel="next" / rel="prev" überhaupt keine Canonical Tags zu verwenden. Stattdessen das-Element der paginierten Seiten ab der zweiten mit einem Robots-Tag zu versehen und die Unterseiten so mit von der Indexierung auszuschließen.

  • Canonical Tags und hreflang: Wenn eine Webseite mit hreflang arbeitet, sollten die jeweiligen URLs entweder per Canonical Tag auf sich selbst verweisen oder überhaupt keine Canonicals verwenden. Werden beide Tags gemeinsam genutzt, erhält Google widersprüchliche Signale. Während das hreflang-Tag zeigt, dass eine andere Sprachversion vorhanden ist, würde der Canonical-Tag diese Version zur Original-URL machen.
  • Canonical Tags und noindex: Mit dem noindex-Tag können Webmaster Google mitteilen, dass eine URL nicht indexiert werden solle. Verweist nun ein Canonical-Tag auf diese Seite, erhält Google unklare Signale. Es soll eine Seite als kanonisch gewählt werden, die aber nicht indexiert werden darf. Webmaster sollten sich deshalb entscheiden, ob sie die noindex- oder Canonical-Variante wählen.

Häufige Fehler[Bearbeiten]

Allerdings ist es auch ein mächtiges Werkzeug, denn wird es falsch eingesetzt[1], können Webseiten von Google komplett ignoriert werden. Der Webseitenbetreiber sollte sich zunächst fragen, ob es sich wirklich um identische oder nahezu identische Inhalte handelt. Dann und nur dann sind Canonical Tags sinnvoll.

Häufige Fehler sind:

  • Bei paginierten / nummerierten Seiten durch rel-next, rel-prev sind Canonical Tags nicht sinnvoll, da es sich genau genommen nicht um identische Inhalte handelt.
  • Die ausgezeichnete Webseite sollte zudem erreichbar sein: Ein 404-Fehler ist unbedingt zu vermeiden.
  • Kanonische URLs werden mit den Attributen "noindex", "disallow" oder "nofollow" kombiniert. Dies ist von Google ausdrücklich nicht erwünscht.[2]
  • Das Canonical Tag hat im Body-Bereich eines Dokumentes nichts verloren und es darf auch nicht in den Meta-Angaben mehrmals verwendet werden.
  • Es wird eine relative Pfadangabe als kanonisches Linkziel angegeben. Dadurch kann es vorkommen, dass der Googlebot die Angabe falsch interpretiert und das Tag somit seine Wirkung verliert. Aus diesem Grund sollte der Link im Canonical Tag immer als komplette URL angegeben werden.
  • Die Syntax wird nicht beachtet. Deshalb sollten immer alle Zeichen bei der Angabe berücksichtigt werden. Gleiches gilt für das Protokoll. Im Januar 2017 hat Google die Verwendung einer sicheren HTTPS-Verbindung für Webseiten zum wichtigen Ranking-Faktor erhoben. Seither bevorzugt Google HTTPS-Seiten als kanonische URLS.[3] Das Canonical Tag sollte darum vom HTTP-Protokoll zur HTTPS-Seite verweisen, nicht umgekehrt.
  • Der Canonical Tag verweist auf die Startseite der Domain. In diesem Fall wird nur noch die Startseite als kanonische URL interpretiert. Das kann zur Folge haben, dass Google mittelfristig nur noch diese indexiert.
  • Der Canonical Tag verweist bei einer Seitenpaginierung auf die erste Seite. Der Tag wäre hier falsch gesetzt, da er anzeigt, dass es Duplikate einer Seite gibt. Bei einer Paginierung sind die Inhalte der Seiten sowie die URLs nicht gleich. Es wird Google lediglich mitgeteilt, dass die entsprechende paginierte Seite Teil einer Reihe von Seiten der gleichen Kategorie ist.
  • Aus der fehlerhaften Verwendung des Canonical Tags entstehen Canonical-Ketten oder gegenseitige Verweise. Zielseiten eines Canonical Links sollten nicht auf andere Canonicals verweisen.

Alternativen[Bearbeiten]

Mit der Google Search Console können Webmaster festlegen, wie Google Parameter einer Webseite behandeln sollen. Auf diese Weise kann der Googlebot dazu bewegt werden, bestimmte URLs einer Seite zu ignorieren.

Einzelnachweise[Bearbeiten]

  1. 5 Common Mistakes with Relcanonical webmasters.googleblog.com. Abgerufen am 28.11.2018
  2. Mueller (Google) über die Kombination von Noindex und Canonical reddit.com. Abgerufen am 28.11.2018
  3. General Guidelines for All Canonicalization Methods support.google.com. Abgerufen am 28.11.2018

Weblinks[Bearbeiten]