Dane kategoryczne (zwane również nominalnymi) mogą przyjmować ograniczoną liczbę możliwych wartości zwanych kategoriami. Wartości kategoryczne „etykieta”, nie „mierzą”. Proszę użyć znacznika [ordinal-data] dla dyskretnych, ale uporządkowanych typów danych.
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
Niektóre techniki modelowania predykcyjnego są bardziej zaprojektowane do obsługi ciągłych predyktorów, podczas gdy inne są lepsze do obsługi zmiennych jakościowych lub dyskretnych. Oczywiście istnieją techniki przekształcania jednego typu na inny (dyskretyzacja, zmienne fikcyjne itp.). Czy są jednak jakieś techniki modelowania predykcyjnego, które zostały zaprojektowane do obsługi obu typów danych wejściowych …
Mam dane z eksperymentu ankietowego, w którym respondenci zostali losowo przydzieleni do jednej z czterech grup: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 Podczas gdy trzy grupy terapeutyczne różnią się nieznacznie zastosowanym bodźcem, główne rozróżnienie, na którym mi zależy, dotyczy grup kontrolnych i leczonych. Zdefiniowałem więc zmienną …
Mam dwie zmienne: nazwę leku (DN) i odpowiadające im zdarzenia niepożądane (AE), które stoją w relacji wiele do wielu. Istnieje 33.556 nazw leków i 9.516 zdarzeń niepożądanych. Wielkość próby wynosi około 5,8 miliona obserwacji. Chcę przestudiować i zrozumieć związek / relację między DN a AE. Zastanawiam się nad sposobem wizualizacji …
Czy „godzina dnia”, w której wartość może wynosić 0, 1, 2, ..., 23, jest zmienną kategoryczną? Kusiłoby mnie, by powiedzieć „nie”, ponieważ na przykład 5 jest „bliżej” do 4 lub 6 niż do 3 lub 7. Z drugiej strony występuje nieciągłość między 23 a 0. Czy ogólnie jest to kategoryczne, …
Jaka jest różnica między ujemnym rozkładem dwumianowym a rozkładem dwumianowym? Próbowałem czytać online i odkryłem, że ujemny rozkład dwumianowy jest używany, gdy punkty danych są dyskretne, ale myślę, że nawet rozkład dwumianowy można zastosować do dyskretnych punktów danych.
Nie jestem pewien, dlaczego musimy tłumić zmienne kategorialne. Na przykład, jeśli mam zmienną kategorialną o czterech możliwych wartościach 0,1,2,3, mogę ją zastąpić dwoma wymiarami. Gdyby zmienna miała wartość 0, miałaby 0,0 w dwóch wymiarach, gdyby miała 3, miałaby 1,1 w dwóch wymiarach i tak dalej. Nie jestem pewien, dlaczego musimy …
Rozumiem, że w uczeniu maszynowym może być problem, jeśli zestaw danych ma wysoce skorelowane funkcje, ponieważ skutecznie kodują te same informacje. Ostatnio ktoś zauważył, że gdy wykonujesz kodowanie na gorąco na zmiennej kategorialnej, masz skorelowane cechy, więc powinieneś upuścić jedną z nich jako „odniesienie”. Na przykład kodowanie płci jako dwóch …
Mam zestaw danych z trzema zmiennymi kategorialnymi i chcę wizualizować związek między wszystkimi trzema na jednym wykresie. Jakieś pomysły? Obecnie używam następujących trzech wykresów: Każdy wykres dotyczy poziomu depresji wyjściowej (łagodny, umiarkowany, ciężki). Następnie na każdym wykresie patrzę na związek między leczeniem (0,1) a poprawą depresji (brak, umiarkowany, znaczny). Te …
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
Właśnie zdałem sobie sprawę, że zawsze działałem problem regresji, w którym zmienne niezależne były zawsze numeryczne. Czy mogę zastosować regresję liniową w przypadku, gdy wszystkie zmienne niezależne są kategoryczne?
Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …
Jaki jest najlepszy sposób na pokazanie związku między: zmienna ciągła i dyskretna, dwie zmienne dyskretne? Do tej pory korzystałem z wykresów rozrzutu, aby spojrzeć na związek między zmiennymi ciągłymi. Jednak w przypadku zmiennych dyskretnych punkty danych są kumulowane w określonych odstępach czasu. Zatem linia najlepszego dopasowania może być stronnicza.
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.