Unicode


Der Unicode ist ein Character Encoding Scheme (CES), welches den internationalen Standard Zeichensatz beschreibt, der in Computern verwendet wird. Der Unicode gilt als Versuch, ein Kompendium von weltweit allen existierenden Textzeichen zu erstellen. Dazu gehören unter anderem das griechische, kyrillische, arabische, hebräische und thailändische Alphabet sowie japanische, chinesische und koreanische Schriftzeichen. Sogar mathematische oder kaufmännische Sonderzeichen sind im Unicode enthalten.

Textverarbeitungsprogramme und die HTML-Codierung im Internet dienen als Beispiel für den praktischen Einsatz des Unicodes. Die Datenbank für Unicode-Zeichen umfasst etwa 230.000 Zeichen und beinhaltet eine Reserve von weiteren eine Millionen Zeichen. Neben dem Unicode gibt es weitere, unterschiedliche und miteinander nicht zu vereinbarende Zeichensätze.

Arten von Unicode

ASCII

Der grundlegendste Zeichensatz im Internet ist der ASCII (American Standard Code for Information Interchange). Im ASCII sind maximal 128 Zeichen möglich, da jedes Zeichen mit 7 Bit kodiert wird. Er beinhaltet hauptsächlich die Buchstaben des lateinischen Alphabets, die im Englischen benutzt werden, und die arabischen Ziffern. Im europäischen Raum ist der ASCII deshalb wenig verbreitet, da die häufig verwendeten Umlaute nicht angezeigt werden. Auch im asiatischen Raum ist der ASCII nicht sehr hilfreich, da die Schriftzeichen nicht dargestellt werden können.

UTF-16

Die "Basic Multilingual Plane" (BMP; Dt.: "Grundlegende mehrsprachige Ebene") ermöglicht schon 65.536 Zeichen und wird durch das "Universal Character Set 2" (UCS-2) kodiert. Die 2 in UCS-2 weist darauf hin, dass für jedes Zeichen zwei Byte, also 16 Bit, zur Kodierung verwendet werden. Daher wird UCS-2 auch häufig UTF-16 (UCS Transformation Format 16 Bit) genannt. Die ersten 265 Zeichen dieses Zeichensatzes beinhalten die Zeichen der west-europäischen Sprachen.

UTF-32

Für Zeichen wie historische Schriftzeichen, alt-ägyptische Hieroglyphen oder seltene chinesische Schriftzeichen reichen 16 Bit oft nicht mehr aus. Hierfür wird jedes Zeichen mit 32 Bit kodiert. Damit sind insgesamt 4.294.967.296 verschiedene Zeichen möglich. Es sollte allerdings bei der Verwendung von UTF-32 der hohe Speicherplatz-Bedarf bedacht werden.

UTF-8

Der in Europa gebräuchlichste Zeichensatz ist UTF-8. Dieser kann jedes Unicode-Zeichen als Abfolge von Datenwörtern von je 8 Bit Länge ausdrücken und kann somit z.B. 16-Bit-kodierte Zeichen in Zeichen mit nur 8 Bit umwandeln. Die ersten 128 Zeichen stimmen mit dem ASCII überein.

Heutige Verwendung

Heutzutage wird der Unicode-Standard von zahlreichen führenden Unternehmen wie Apple, IBM, Microsoft oder Hewlett-Packard verwendet, setzt sich aber nur langsam durch. Auch die plattform-übergreifende Programmiersprache Java und das Microsoft-Betriebssystem NT arbeiten intern mit dem Unicode. Aus Sicht der Usability und auch um möglichst viele User ansprechen zu können sollte der UTF-8 Zeichensatz verwendet werden. Dieser umfasst sehr viele weltweit gebräuchliche Zeichen verschiedenster Sprachen und verbraucht zugleich einen geringen Speicherplatz. Wenn beispielsweise nur der ASCII benutzt wird, um die Zeichen zu kodieren, so können keine Umlaute dargestellt werden.

Weblinks