Pliki programu Excel można przekonwertować na CSV przy użyciu:
$ libreoffice --convert-to csv --headless --outdir dir file.xlsx
Wszystko wydaje się działać dobrze. Kodowanie jest jednak ustawione na coś dziwnego. Zamiast mdash UTF-8 (-), który otrzymuję, jeśli wykonam ręcznie „zapisz jako” z LibreOffice Calc, daje mi \ 227 ( ). Użycie pliku w CSV daje mi „tekst bez rozszerzonego ASCII bez ISO, z bardzo długimi liniami”. Tak więc dwa pytania:
- Co tu się u licha dzieje?
- Jak powiedzieć libreoffice, aby przekonwertował na UTF-8?
Konkretny plik, który próbuję przekonwertować, znajduje się tutaj .