Jaka jest różnica między danymi dyskretnymi a danymi ciągłymi?
Jaka jest różnica między danymi dyskretnymi a danymi ciągłymi?
Odpowiedzi:
Dane dyskretne mogą przyjmować tylko określone wartości. Potencjalnie może istnieć nieskończona liczba tych wartości, ale każda z nich jest odrębna i pomiędzy nimi nie ma szarej strefy. Dyskretne dane mogą być liczbowe - jak liczby jabłek - ale mogą być również kategoryczne - jak czerwony lub niebieski, męski lub żeński, dobry lub zły.
Dane ciągłe nie są ograniczone do określonych oddzielnych wartości, ale mogą zajmować dowolne wartości w ciągłym zakresie. Pomiędzy dwiema ciągłymi wartościami danych może istnieć nieskończona liczba innych. Dane ciągłe są zawsze zasadniczo numeryczne.
Czasami sensowne jest traktowanie danych liczbowych, które są właściwie jednego typu, jako dane drugiego. Na przykład coś w rodzaju wysokości jest ciągłe, ale często tak naprawdę nie przejmujemy się drobnymi różnicami, a zamiast tego grupujemy wysokości w kilka odrębnych pojemników . I odwrotnie, jeśli liczymy duże ilości jakiegoś odrębnego bytu - ziarna ryżu, termity lub grosze w gospodarce - możemy nie myśleć o 2000006 i 2000008 jako o zasadniczo różnych wartościach, ale zamiast o pobliskich punktach na przybliżone kontinuum.
Czasami przydatne może być również traktowanie danych liczbowych jako kategorycznych, np .: niedowaga, normalna, otyłość. Zazwyczaj jest to po prostu inny rodzaj binowania.
Rzadko warto traktować dane kategoryczne jako ciągłe.
Dane są zawsze dyskretne. Biorąc pod uwagę próbkę n
wartości zmiennej, maksymalna liczba odrębnych wartości, jaką może przyjąć zmienna, jest równa n
. Zobacz ten cytat
Wszystkie rzeczywiste przestrzenie próbki są dyskretne, a wszystkie obserwowalne zmienne losowe mają dyskretne rozkłady. Rozkład ciągły jest konstrukcją matematyczną, odpowiednią do leczenia matematycznego, ale praktycznie niemożliwą do zaobserwowania. EJG Pitman (1979, s. 1).
Dane o zmiennej zazwyczaj przyjmuje się, że pochodzą z zmiennej losowej. Zmienna losowa jest ciągła w całym zakresie, jeśli istnieje nieskończona liczba możliwych wartości, które zmienna może przyjąć między dowolnymi dwoma różnymi punktami w zakresie. Na przykład, zakłada się, że wzrost, waga i czas są ciągłe. Oczywiście każdy pomiar tych zmiennych będzie dokładnie dokładny iw pewnym sensie dyskretny.
Przydatne jest rozróżnienie między
zmiennymi uporządkowanymi (tj. Porządkowymi), nieuporządkowanymi (tj. Nominalnymi) i dyskretnymi zmiennymi binarnymi.
Niektóre podręczniki wprowadzające mylą zmienną ciągłą ze zmienną numeryczną. Na przykład wynik w grze komputerowej jest dyskretny, nawet jeśli jest liczbowy.
Niektóre podręczniki wprowadzające mylą zmienną proporcji ze zmiennymi ciągłymi. Zmienna zliczająca jest zmienną stosunkową, ale nie jest ciągła.
W praktyce zmienna jest często traktowana jako ciągła, gdy może przyjąć wystarczająco dużą liczbę różnych wartości.
Temperatury są ciągłe. Może wynosić 23 stopnie, 23,1 stopnia, 23,100004 stopnia.
Seks jest dyskretny. Możesz być tylko mężczyzną lub kobietą (w każdym razie w klasycznym myśleniu). Coś, co możesz reprezentować liczbą całkowitą, np. 1, 2 itd
Różnica jest ważna, ponieważ wiele algorytmów statystycznych i eksploracji danych może obsługiwać jeden typ, ale nie drugi. Na przykład w regresji regularnej Y musi być ciągłe. W regresji logistycznej Y jest dyskretne.
Dane dyskretne mogą przyjmować tylko określone wartości.
Przykład: liczba uczniów w klasie (nie możesz mieć połowy ucznia).
Dane ciągłe to dane, które mogą przyjąć dowolną wartość (w zakresie)
Przykłady:
W przypadku bazy danych zawsze przechowujemy dane w sposób dyskretny, nawet jeśli charakter danych jest ciągły. Dlaczego powinienem podkreślać naturę danych? Powinniśmy wziąć dystrybucję danych, która mogłaby pomóc nam w ich analizie. JEŻELI charakter danych jest ciągły, sugeruję, abyś używał ich przez ciągłą analizę.
Weź przykład ciągłego i dyskretnego: MP3. Nawet rodzaj „dźwięku” jest analogiczny, jeśli jest przechowywany w formacie cyfrowym. Powinniśmy to zawsze analizować analogicznie.
Z jednej strony, z praktycznego punktu widzenia zgadzam się z odpowiedzią Jeromy Anglim. Ostatecznie przeważnie mamy do czynienia ze zmiennymi dyskretnymi - chociaż z teoretycznego punktu widzenia są one ciągłe - i to ma realny wpływ na przykład na klasyfikację. Przypomnijmy artykuł Strobla wskazujący, że Losowe Lasy są nastawione na zmienne o wielu punktach cięcia (większa dokładność, ale potencjalnie podobny charakter). Z mojego osobistego doświadczenia probabilistyczne sieci neuronowe mogą również wykazywać błąd, gdy zmienne prezentują inną dokładność, chyba że są tego samego typu (tj. Ciągłe). Z drugiej strony, z teoretycznego punktu widzenia klasyczna klasyfikacja (np. Ciągła, dyskretna, nominalna itp.) Ma, IMHO, rację. Zgodnie z tym myślę, że nazwa źródłowa artykułu Quinlan opisującego algorytm M5, który jest „regresorem”, to świetny wybór. Tak więc definicja i implikacje ciągłego vs. dyskretnego są istotne w zależności od „środowiska”.
Refs:
Quinlan JR (1992). Uczenie się za pomocą ciągłych zajęć. W: Piąta australijska wspólna konferencja na temat AI. Sydney (Australia), 343–348.
Strobl C., Boulesteix A.-L., Zeileis A. i Hothorn T. (2007). Odchylenie w losowych pomiarach lasów o różnym znaczeniu: ilustracje, źródła i rozwiązanie. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25
Dane dyskretne przyjmują określone wartości, natomiast dane ciągłe nie są ograniczone do osobnych wartości.
Dane dyskretne są odrębne i pomiędzy nimi nie ma szarego obszaru, podczas gdy dane ciągłe zajmują dowolną wartość w stosunku do wartości danych ciągłych.
Dane dyskretne Mogą przyjmować określone wartości. Są numeryczne.
Dane dyskretne mogą przyjmować tylko wartości całkowite, natomiast dane ciągłe mogą przyjmować dowolne wartości. Na przykład liczba pacjentów z rakiem leczonych przez szpital każdego roku jest dyskretna, ale Twoja waga jest ciągła. Niektóre dane są ciągłe, ale mierzone w sposób dyskretny, np. Wiek. Często mówi się o wieku, powiedzmy, 31 lat.