Version 1 (modified by Dennis Heidsiek, 17 years ago) ( diff )

Initiale Version – wird gleich noch aufgeräumt!

Unicode-Normalformen

Es gibt viele Zeichen, die auf unterschiedliche Art und Weise im Unicode kodiert werden werden.

Im Unicode können viele diakritische Zeichen als eigenständiges (wie z.B. ä, é, …) oder als zusammengesetztes Zeichen (»a+¨«, »e+´«, …) gesendet werden. Mehrfache Akzente können (in der Mehrzahl der Fälle) nur über zusammengesetztes Zeichen realisiert werden. Genauere Angaben finden sich unter [Unicode-Normalformen].

warum ´e≠e´´ ist« steht noch nicht im Wiki.

Für viele Kombinationen aus diakritischen Zeichen und Buchstaben existieren eigene Unicode-Einträge, einfache Beispiele sind z.B. ä, é (NFC).

Für viele Kombinationen aus diakritischen Zeichen und Buchstaben existieren eigene Unicode-Einträge, einfache Beispiele sind z.B. ä, é (NFC). Soll jedoch eine Zahl mit einem diakritschen Zeichen versehen werden, oder ein Buchstabe mit mehreren Diakritika, so ist dies (in der Mehrzahl der Fälle) nur über Combining Characters möglich. Hierbei werden alle „Bestandteile“ einzeln gespeichert (NFD).

Ligaturen

Beispielsweise, ob eine Suche nach "fliegen" auch "fliegen" (mit fl-Ligatur) findet. Ich werde diesen Teil gleich mal ausgliedern.

Diakritische Zeichen

Im Unicode können viele diakritische Zeichen als eigenständiges (wie z.B. ä, é, …) oder als zusammengesetztes Zeichen (»a+¨«, »e+´«, …) gesendet werden. Soll jedoch eine Zahl mit einem diakritschen Zeichen versehen werden, oder ein Buchstabe mit mehreren Diakritika, so ist dies (in der Mehrzahl der Fälle) nur über zusammengesetztes Zeichen (Combining Characters) möglich.

Normalformen

Weiterführende Information

Für weiteregehende Informationen, insbesondere NFC und NFD, siehe Unicode equivalence in der englischen Wikipedia oder den ausführlicheren Artikel des Unicode-Konsortiums über die Unicode Normalization Forms.

Note: See TracWiki for help on using the wiki.