Wydaje mi się, że aby wybrać odpowiednie narzędzia statystyczne, muszę najpierw ustalić, czy mój zestaw danych jest dyskretny czy ciągły.
Czy możesz mi nauczyć, jak mogę sprawdzić, czy dane są dyskretne czy ciągłe z R?
Wydaje mi się, że aby wybrać odpowiednie narzędzia statystyczne, muszę najpierw ustalić, czy mój zestaw danych jest dyskretny czy ciągły.
Czy możesz mi nauczyć, jak mogę sprawdzić, czy dane są dyskretne czy ciągłe z R?
Odpowiedzi:
Jedynym powodem, dla którego od razu mogę wymyślić wymaganie tej decyzji, jest decyzja o włączeniu zmiennej jako ciągłej lub kategorycznej do regresji.
Po pierwsze, czasami nie masz wyboru: zmienne postaci lub czynniki (w przypadku gdy osoba dostarczająca dane. Ramka podjęła za ciebie decyzję) są oczywiście kategoryczne.
x1
x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Powiedziałbym, że zmienną, która ma tylko 5% unikalnych wartości, można bezpiecznie nazwać dyskretną (ale jak wspomniano: jest to subiektywne). Jednak: to nie czyni go dobrym kandydatem do włączenia go jako zmiennej kategorialnej do twojego modelu: Jeśli masz 1000000 obserwacji i 5% unikalnych wartości, to nadal pozostawia 50000 „kategorii”: jeśli podasz tę kategorię, „ zamierzam spędzić piekło dużo stopni swobody.
Myślę, że to połączenie jest jeszcze bardziej subiektywne i zależy w dużej mierze od wielkości próby i wybranej metody. Bez większego kontekstu trudno tu podać wytyczne.
x
0
1
2