W poprzednim pytaniu poprosiłem o narzędzia do edycji plików CSV .
Gavin powiązał z komentarzem R Help autorstwa Duncana Murdocha sugerującym, że Data Interchange Format to bardziej niezawodny sposób przechowywania danych niż CSV.
W przypadku niektórych aplikacji potrzebny jest dedykowany system zarządzania bazą danych. Jednakże, w przypadku projektów małych analizy danych skala czegoś więcej waga wydaje się bardziej odpowiedni.
Pod uwagę następujące kryteria oceny format pliku:
- reliabile : wprowadzone dane powinny pozostać wiernym temu, co zostało wprowadzone; dane powinny być otwierane konsekwentnie w innym oprogramowaniu;
- prosty : byłoby miło, jeśli format pliku jest łatwe do zrozumienia i być idealnie czytelne pomocą edytora prosty tekst; napisanie prostego programu do odczytu i zapisu formatu powinno być łatwe.
- open : format powinien być otwarty
- interoperacyjny : format pliku powinien być obsługiwany przez wiele systemów
Uważam, że formaty wartości rozdzielanych tabulatorami i przecinkami nie spełniają kryterium wiarygodności. Chociaż przypuszczam, że mógłbym winić za to programy importujące i eksportujące, a nie format pliku. I często znajduję się konieczności dokonywania małych korekt w opcji
read.table
w celu zapobieżenia jakąś dziwną postać z przerywając ładowanie ramki danych.
pytania
- Który format pliku najlepiej spełnia te potrzeby?
- Czy Data Interchange Format jest lepszą alternatywą? czy ma własne problemy?
- Czy jest jakiś inny preferowany format?
- Czy niesprawiedliwie oceniam TSV i CSV? Czy istnieje prosty zestaw wskazówek dotyczących pracy z takimi plikami, które zwiększają niezawodność formatu pliku?
write.DIF()
więc jest trochę jednokierunkowej ulicy obawiam.