Podczas pracy nad projektami analizy danych często przechowuję dane w plikach danych rozdzielanych przecinkami lub tabulatorami (CSV, TSV). Podczas gdy dane często należą do dedykowanego systemu zarządzania bazą danych. W przypadku wielu moich aplikacji byłoby to przesadzanie.
Mogę edytować pliki CSV i TSV w programie Excel (lub prawdopodobnie innym programie do obsługi arkuszy kalkulacyjnych). Ma to zalety:
- arkusze kalkulacyjne ułatwiają wprowadzanie danych
Istnieje również kilka problemów:
- Praca z plikami CSV i TSV prowadzi do wielu komunikatów ostrzegawczych o utracie różnych funkcji oraz o tym, jak tylko aktywny arkusz zostanie zapisany i tak dalej. Dlatego denerwujące jest, jeśli chcesz tylko otworzyć plik i dokonać drobnych zmian.
- Dokonuje wielu „rzekomo inteligentnych” konwersji. Na przykład, jeśli wpiszesz 12/3, pomyślisz, że chcesz wprowadzić datę. AKTUALIZACJA: Powinienem wspomnieć, że przykład daty jest tylko jednym z wielu przykładów; większość problemów wydaje się być związana z niewłaściwą konwersją. W szczególności pola tekstowe wyglądające jak liczby lub daty powodują problemy.
Alternatywnie mogłem pracować bezpośrednio z plikiem tekstowym w standardowym edytorze tekstu. To gwarantuje, że to, co wpisuję, jest rejestrowane. Jest to jednak bardzo niewygodny sposób wprowadzania danych (kolumny się nie układają; trudno jest wprowadzić dane po prostu do wielu komórek; itp.).
Pytanie
- Jaka jest dobra strategia pracy z plikami danych CSV lub TSV? tj. jaka strategia ułatwia wprowadzanie danych i manipulowanie nimi, a jednocześnie zapewnia, że wprowadzane dane są właściwie interpretowane?