Istnieje wiele zwykłych plików tekstowych zakodowanych w różnych zestawach znaków.
Chcę przekonwertować je wszystkie na UTF-8, ale przed uruchomieniem iconv muszę znać jego oryginalne kodowanie. Większość przeglądarek ma Auto Detect
opcję kodowania, jednak nie mogę sprawdzać tych plików tekstowych jeden po drugim, ponieważ jest ich zbyt wiele.
Znając tylko oryginalne kodowanie, mogę przekonwertować teksty iconv -f DETECTED_CHARSET -t utf-8
.
Czy jest jakieś narzędzie do wykrywania kodowania zwykłych plików tekstowych? NIE musi być w 100% perfekcyjny, nie mam nic przeciwko, jeśli 100 milionów plików jest źle przekonwertowanych.
python-chardet
w repozytorium wszechświata Ubuntu.