Czy to tylko agregacja punktów danych? A może reprezentacja punktów danych dla różnych elementów w formacie tabelarycznym ułożonym z wartościami różnych zmiennych? Czym różni się od surowych danych?
Czy to tylko agregacja punktów danych? A może reprezentacja punktów danych dla różnych elementów w formacie tabelarycznym ułożonym z wartościami różnych zmiennych? Czym różni się od surowych danych?
Odpowiedzi:
Z mojego doświadczenia wynika, że „zbiór danych” (lub „zestaw danych”) jest nieformalnym terminem odnoszącym się do zbioru danych. Zasadniczo zestaw danych zawiera więcej niż jedną zmienną i dotyczy jednego tematu; może dotyczyć pojedynczej próbki.
Błędem, który często widzę pisarze pytań z weryfikacją krzyżową, jest użycie „zestawu danych” jako synonimu „zmiennej” lub „wektora”.
Myślę, że Wikipedia wykonuje przyzwoitą robotę, definiując ją:
Najczęściej zestaw danych odpowiada zawartości pojedynczej tabeli bazy danych lub pojedynczej macierzy danych statystycznych, gdzie każda kolumna tabeli reprezentuje określoną zmienną, a każdy wiersz odpowiada danemu elementowi danego zbioru danych. Zestaw danych zawiera wartości dla każdej ze zmiennych, takie jak wysokość i waga obiektu, dla każdego elementu zestawu danych. Każda wartość nazywana jest punktem odniesienia. Zestaw danych może zawierać dane dla jednego lub większej liczby elementów, odpowiadające liczbie wierszy.
Termin zestaw danych można również stosować bardziej luźno, aby odnosić się do danych w zbiorze ściśle powiązanych tabel, odpowiadających konkretnemu eksperymentowi lub zdarzeniu. Przykładem tego typu są zbiory danych zbierane przez agencje kosmiczne przeprowadzające eksperymenty z instrumentami na sondach kosmicznych.
W dyscyplinie otwartych danych zbiór danych jest jednostką mierzącą informacje publikowane w publicznym repozytorium otwartych danych. Europejski portal otwartych danych gromadzi ponad pół miliona zbiorów danych. W tej dziedzinie zaproponowano inne definicje, ale obecnie nie ma oficjalnej definicji. Niektóre inne problemy (źródła danych w czasie rzeczywistym, nierelacyjne zestawy danych itp.) Zwiększają trudność osiągnięcia konsensusu w tej sprawie.
Jak widać, termin ten jest nieco niejasny.
Myślę, że może zajść potrzeba zdefiniowania punktu danych, zanim będzie można zdefiniować zestaw danych : dlaczego jeden jest prymitywny i nie wymaga definicji, ale nie odwrotnie?
Co najmniej dwie definicje mają dla mnie sens:
Jedna lub więcej obserwacji (przypadki, rekordy, wiersze) dla jednej lub więcej zmiennych (pól. Kolumn).
Cokolwiek jest przechowywane jako dane w pliku odczytywalnym przez wybrany program.
Układ tabel jest powszechny, ale nie sądzę, aby był częścią żadnej definicji; sposób przechowywania danych może być oczywiście bardzo ważny.
PS Słowo „format” jest tak przeładowane, że według mnie najlepiej go unikać, chyba że zostanie to określone jednoznacznie. Widziałem to używane
Ogólny lub określony format pliku tekstowego lub binarnego
Struktura danych, np. Tabelaryczna lub inna
Pamięć danych lub typy zmiennych, np. Bit, liczba całkowita, liczba rzeczywista, znak
Format wyświetlania kontrolujący prezentację, np. Szczegóły dotyczące liczby miejsc po przecinku; wyświetlanie dziesiętne, szesnastkowe lub binarne.
Istnieje już kilka dobrych odpowiedzi i nie sądzę, żebym mógł wniknąć głębiej niż Nick Cox lub Franck Dernoncourt w kwestię, czy „zbiór danych” odnosi się do konceptualnego gromadzenia powiązanych danych lub do konkretnego ich uporządkowania, np. tabela / macierz lub plik czytelny dla komputera. Wyciąg Francka wspomina przypadki skrajne, takie jak stale gromadzone dane lub dane rozłożone w kilku tabelach, o których warto pamiętać, jeśli założymy, że będzie prosta definicja. (Nie wszystkie programy statystyczne mogą sobie z tym poradzić, ale bardzo łatwo jest wyobrazić sobie przypadek, w którym dane są przechowywane w relacyjnej bazie danych z wieloma tabelami. Czy cała baza danych jest pojedynczym „zbiorem danych”?)
Dodam jednak, że zestawy danych nie są ogólnie zestawami, w sensie matematycznym! Sensu stricto albo zestaw zawiera obiekt, albo go nie zawiera, ale nie może zawierać więcej niż jednej kopii tego obiektu. Jeśli rzucę kostką osiem razy i zdobędę 1, 4, 3, 5, 5, 4, 6, 4, wówczas zestaw wyrzuconych wyników to tylko {1, 3, 4, 5, 6}. Zauważ, że elementy mogą być w dowolnej kolejności, właśnie napisałem je rosnąco, ale na przykład zestaw {5, 4, 1, 6, 3} jest matematycznie równy. Jednak nie to zwykle rozumiemy przez zestaw danych!
Ale wektory służą tylko do rejestrowania jednej zmiennej - dla kilku może być wygodniej używać macierzy do tabelowania z zachowanym porządkiem. W przypadku bardziej wyrafinowanych sytuacji, takich jak pomiar właściwości trójwymiarowej siatki wokseli w czasie, możesz nawet przejść do układania danych w tensorze (patrz np. To pytanie ).
Należy jednak pamiętać, że koncepcyjnie multiset może wystarczyć w najprostszych sytuacjach, nawet jeśli jest to niewygodne ze względów praktycznych. Gdybym rzucił monetę jednocześnie z rzutowaniem kostką i chciałem zapisać oba wyniki razem, to mógłbym użyć multisetu, takiego jak {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} zamiast macierzy. Zwykły zestaw nie wystarczy, ponieważ nie policzyłby na przykład wielokrotności (4, H).