Umlaut Handling


Als Umlaut Handling wird allgemein der Umgang mit Umlauten verstanden. Besonders bei digitalen Dokumenten wie Websites und deren URLs können Umlaute für Probleme in der Crawlbarkeit und Darstellung sorgen. Das Umlauthandling sollte demnach für Sprachen mit Umlauten einen wichtigen Bestandteil der Marketing- und SEO-Planung ausmachen.

Umlaut Handling in URLs

Grundsätzlich gilt für die Suchmaschinenoptimierung ein Konsens, dass Umlaute in URLs vermieden werden sollten. Dadurch soll verhindert werden, dass Suchmaschinen eine URL falsch interpretieren und entweder falsch indizieren oder erst gar nicht in den Index aufnehmen. Denn um eine URL mit Umlauten zu lesen, muss diese zunächst in ASCII-Zeichen „übersetzt“ werden. Und es ist gerade dieser Zwischenschritt, der Crawler vor Probleme stellen kann. Während Bots noch zu Beginn keine Umlaut-URLs lesen konnten, ist dies technisch heute durchaus möglich.

Damit Umlaute in URLs dargestellt werden können, behilft man sich mit dem sogenannten Punycode-System. Hiermit werden Umlaute in ASCII-kompatible Zeichenketten umgeformt. Dabei wird jeder Umlaut oder jedes Sonderzeichen genau einem bestimmten Zahlen- und Buchstabencode zugeordnet.

Folgende Regeln werden bei der Umwandlung von URLs eingehalten:

  • beinhaltet die URL nur ASCII-Zeichen, wird sie nicht verändert
  • enthält die URL Basiszeichen und Sonderzeichen bzw. Umlaute, werden die Basiszeichen beibehalten und die Umlaute in Punycode konvertiert und per Bindestrich angehängt
  • enthält die URL nur Sonderzeichen, werden diese als Code umgeschrieben und chronologisch angeordnet

Wird ein Domainname mit Sonderzeichen nach dem IDNA-Standard angezeigt, wird ein „xn“- vorangestellt. Hierzu ein Beispiel:

kombüse.de wird im IDNA-Standard und Punycode zu xn-kombse-c6a.de

Die Nachteile von Umlauten im Domainnamen oder in der URL sind vor allem dann unabhängig von der Arbeit der Suchmaschinenspider spürbar, wenn die Skripte einer Website nicht korrekt mit IDN-Codefolgen umgehen können.

Eine weitere Methode, um Umlaute korrekt umzuwandeln, ist die Benutzung von UTF-8.

Konsequentes Umlaut Handling per UTF-8

Wer alle Umlautprobleme vermeiden möchte, kann folgende Tipps beachten:

<meta http-equiv="content-type" content="text/html; charset=utf-8" />
  • Übergabe von Formular-Daten in UTF-8
  • Zeichensätze von Datenbanken in UTF-8 erstellen
  • eingebundene Daten sollten zuvor in UTF-8 umgewandelt werden

URLs in UTF-8-Schreibweise sehen für User vielfach genauso kryptisch aus wie Domainnamen in Punycode-Schreibweise. Aus diesem Grund können diese URLs per mod_rewrite in lesbare und suchmaschinenfreundliche URLs umgewandelt werden.

Umlaute in digitalen Dokumenten

Wer möchte, dass Umlaute im Content seiner Website korrekt von allen Browsern dargestellt werden können, sollte bei der Dokumenttypdefinition für HTML darauf achten, dass UFT-8 angegeben wird. Auf diese Weise erkennt der Browser die Zeichenkodierung und kann die Inhalte, also auch Sonderzeichen und Umlaute korrekt wiedergeben.