Version 2 (modified by Dennis Heidsiek, 15 years ago) ( diff )

Nur ein Zwischenstand …

Unicode-Normalformen

Viele Zeichen können auf unterschiedliche Art und Weise im Unicode abgespeichert werden. Dies betrifft insbesondere diakritische Zeichen, aber bspw. auch Ligaturen oder japanische Katakana.

warum ´e≠e´´ ist« steht noch nicht im Wiki.

Für viele Kombinationen aus diakritischen Zeichen und Buchstaben existieren eigene Unicode-Einträge, einfache Beispiele sind z.B. ä, é (NFC).

Für viele Kombinationen aus diakritischen Zeichen und Buchstaben existieren eigene Unicode-Einträge, einfache Beispiele sind z.B. ä, é (NFC). Soll jedoch eine Zahl mit einem diakritschen Zeichen versehen werden, oder ein Buchstabe mit mehreren Diakritika, so ist dies (in der Mehrzahl der Fälle) nur über Combining Characters möglich. Hierbei werden alle „Bestandteile“ einzeln gespeichert (NFD).

Ligaturen

Beispielsweise, ob eine Suche nach "fliegen" auch "fliegen" (mit fl-Ligatur) findet. Ich werde diesen Teil gleich mal ausgliedern.

Diakritische Zeichen

Im Unicode können viele diakritische Zeichen als eigenständiges (wie z.B. ä, é, …) oder als zusammengesetztes Zeichen (»a+¨«, »e+´«, …) gesendet werden.

Soll jedoch eine Zahl mit einem diakritschen Zeichen versehen werden, oder ein Buchstabe mit mehreren Diakritika, so ist dies (in der Mehrzahl der Fälle) nur über zusammengesetztes Zeichen (Combining Characters) möglich. Diese Methode ist also deutlich flexibler, da Diakritika quasi beliebig kombiniert werden können und nicht jede seltene Kombination einzeln im Unicode aufgeführt werden muss. Infolgedessen wird diese Methode vom Unicode-Konsortium vorgezogen und sollte eigentlich Standard sein.

In der Praxis wird diese Empfehlung jedoch nur von Apple-Rechnern umgesetzt. Unter Linux und Windows werden meist die eigenständigen Zeichen bevorzugt, da diese aus älteren (wie den [http://de.wikipedia.org/wiki/ISO_8859-1 ISO 8859-) Zeichensätzen aus Kompatibilitätsgründen in den Unicode übernommen wurden. Deshalb können viele Programme auch heute noch nicht mit zusammengesetzen Zeichen umgehen; die Diakritika werden dann als Kasten angezeigt, oder verrutschen auf andere Buchstaben, …

Normalformen

NFC und NFD

Weiterführende Information

Weiteregehende Informationen finden sich in der englischen Wikipedia (Unicode equivalence) sowie im dem ausführlicheren Artikel des Unicode-Konsortiums über die Unicode Normalization Forms.

Note: See TracWiki for help on using the wiki.