Mam plik w UTF-8, który zawiera teksty w wielu językach. Wiele z nich to nazwiska ludzi. Muszę przekonwertować go na ASCII i potrzebuję, aby wynik wyglądał tak przyzwoicie, jak to możliwe.
Istnieje wiele sposobów na przejście z kodowania szerszego na węższe. Najprostszą transformacją byłoby zastąpienie wszystkich znaków spoza ASCII pewnym symbolem zastępczym, takim jak „_”. Jeśli znam język, w którym plik jest zapisany, istnieją dodatkowe możliwości, takie jak romanizacja.
Jakie narzędzie uniksowe lub biblioteka języków programowania dostępna w systemie Unix może zapewnić mi przyzwoitą (najlepiej działającą) konwersję z UTF-8 na ASCII?
Większość tekstu jest w europejskich językach łacińskich.
iconv
i tr
istnieje Unidecode . Nie jestem z tym zaznajomiony, ale może zrobić to, co chcesz, jeśli możesz używać Pythona.