W Unicode niektóre kombinacje znaków mają więcej niż jedną reprezentację.
Na przykład znak ä można przedstawić jako
- „ä”, czyli punkt kodowy U + 00E4 (dwa bajty
c3 a4
w kodowaniu UTF-8) lub jako - „ä”, tj. dwa punkty kodowe U + 0061 U + 0308 (trzy bajty
61 cc 88
w UTF-8).
Zgodnie ze standardem Unicode obie reprezentacje są równoważne, ale w różnych „formach normalizacji”, patrz UAX # 15: Formy normalizacji Unicode .
Przybornik unix ma wszystkie rodzaje narzędzi do przekształcania tekstu, sed , tr , iconv , Perl. Jak mogę szybko i łatwo przekonwertować NF w wierszu poleceń?
perl -MUnicode::Normalization -e 'print NFC(
... er, co teraz tu jest ...