Znam kogoś, kto pracuje nad projektem, który obejmuje przyjmowanie plików danych bez względu na kolumny lub typy danych. Zadanie polega na pobraniu pliku z dowolną liczbą kolumn i różnych typów danych oraz wyjściowych statystyk podsumowujących dane liczbowe.
Nie ma jednak pewności, jak dynamicznie przypisywać typy danych do niektórych danych liczbowych. Na przykład:
CITY
Albuquerque
Boston
Chicago
To oczywiście nie są dane liczbowe i będą przechowywane jako tekst. Jednak,
ZIP
80221
60653
25525
nie są wyraźnie oznaczone jako kategoryczne. Jego oprogramowanie przypisuje kod pocztowy jako statystyki numeryczne i podsumowujące dane wyjściowe, co nie ma sensu dla tego rodzaju danych.
Kilka pomysłów, które mieliśmy:
- Jeśli kolumna zawiera wszystkie liczby całkowite, oznacz ją jako kategoryczną. To oczywiście nie zadziałałoby, ale to był pomysł.
- Jeśli kolumna ma mniej niż n unikalnych wartości i jest liczbowa, oznacz ją kategorycznie. Może to być bliżej, ale nadal mogą występować problemy z przepływaniem danych liczbowych.
- Utrzymaj listę typowych danych liczbowych, które powinny faktycznie być jakościowe, i porównaj nagłówki kolumn z tą listą w celu dopasowania. Na przykład wszystko, co zawiera „ZIP”, byłoby kategoryczne.
Mój żołądek mówi mi, że nie ma sposobu, aby dokładnie przypisać dane liczbowe jako kategoryczne lub liczbowe, ale liczyłem na sugestię. Wszelkie informacje, które posiadasz, są bardzo mile widziane.