Dane kategoryczne (zwane również nominalnymi) mogą przyjmować ograniczoną liczbę możliwych wartości zwanych kategoriami. Wartości kategoryczne „etykieta”, nie „mierzą”. Proszę użyć znacznika [ordinal-data] dla dyskretnych, ale uporządkowanych typów danych.
Zdaję sobie sprawę z tego, że zmienne kategorialne o poziomach k powinny być kodowane zmiennymi k-1 w kodowaniu fikcyjnym (podobnie w przypadku wielowartościowych zmiennych jakościowych). Zastanawiałem się, w jakim stopniu problem polega na kodowaniu jednorazowym (tj. Zamiast tego przy użyciu zmiennych k) zamiast kodowaniu fikcyjnym dla różnych metod regresji, głównie …
Przeczytałem więc kilka postów o tym, dlaczego zawsze należy unikać binowania. Popularnym odniesieniem dla tego roszczenia jest ten link . Główną kwestią jest to, że punkty binningu (lub punkty odcięcia) są raczej arbitralne, jak również wynikająca z tego utrata informacji, i że splajny powinny być preferowane. Jednak obecnie pracuję z …
Prowadzę badania nad grami edukacyjnymi, a niektóre z moich bieżących projektów polegają na wykorzystaniu danych z BoardGameGeek (BGG) i VideoGameGeek (VGG) w celu zbadania związków między elementami projektowania gier (tj. „Osadzonymi w II wojnie światowej”, „wymaga rzucania kostką” ) i oceny tych gier (tj. wyniki na 10). Każdy z tych …
Kiedy użyteczne jest przekształcanie zmiennych kategorialnych według wagi dowodu (WOE)? Przykład można zobaczyć w transformacji WOE (Tak na odpowiedź , i kategorycznym predyktora z kategoriach & sukcesów poza n_j prób w j th kategorii tej predykcyjnych, Biada j th Kategoria ta jest zdefiniowana jakok y j n j j jyyykkkyjotyjoty_jnjotnjotn_jjotjotjjjj …
Czy ktoś może mi powiedzieć, jak nazywa się ten typ diagramu (jeśli istnieje)? Czy ktoś może również zasugerować dowolne narzędzia, choćby proste, aby wykreślić taki schemat?
Oto na przykład definicje, które otrzymuję ze standardowych podręczników Zmienna - charakterystyczna dla populacji lub próby. dawny. Cena akcji lub oceny na teście Dane - rzeczywiste obserwowane wartości Tak więc dla raportu dwukolumnowego [Nazwa | Dochód] nazwami kolumn byłyby zmienne, a rzeczywiste zaobserwowane wartości {dave | 100K}, {jim | 200 …
Testuję niezależność dwóch zmiennych, A i B, stratyfikowanych według C. A i B są zmiennymi binarnymi, a C jest kategoryczne (5 wartości). Przeprowadzając dokładny test Fishera dla A i B (wszystkie warstwy łącznie), otrzymuję: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 …
Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1). Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych. Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie …
Postaram się opisać problem tak ogólnie, jak to możliwe. Modeluję obserwacje jako rozkład kategoryczny z parametrem wektor prawdopodobieństwa theta. Następnie zakładam, że wektor parametrów theta podąża za rozkładem Dirichleta z parametrami α1,α2,…,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k . Czy można zatem narzucić również rozkład hiperpriorów na parametry α1,α2,…,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k ? Czy będzie to rozkład wielowymiarowy, taki …
Zauważyłem, że podczas majstrowania przy modelu regresji wielowymiarowej zaobserwowano niewielki, ale zauważalny efekt wielokoliniowości, mierzony współczynnikami inflacji wariancji, w kategoriach zmiennej jakościowej (oczywiście po wykluczeniu kategorii odniesienia). Załóżmy na przykład, że mamy zestaw danych ze zmienną ciągłą y i jedną nominalną zmienną kategorialną x, która ma k możliwych wzajemnie wykluczających …
Próbuję znaleźć korelację między zmienną dychotomiczną i zmienną ciągłą. Na podstawie moich prac nad tym stwierdziłem, że muszę zastosować niezależny test t, a warunkiem tego jest, aby rozkład zmiennej był normalny. Przeprowadziłem test Kołmogorowa-Smirnowa w celu przetestowania normalności i stwierdziłem, że zmienna ciągła jest nienormalna i jest wypaczona (dla około …
Muszę wykonać binarną regresję logistyczną z wieloma niezależnymi zmiennymi. Większość z nich ma charakter binarny, ale kilka zmiennych kategorialnych ma więcej niż dwa poziomy. Jaki jest najlepszy sposób radzenia sobie z takimi zmiennymi? Na przykład, dla zmiennej o trzech możliwych wartościach, przypuszczam, że należy utworzyć dwie zmienne fikcyjne. Następnie, w …
Muszę przeanalizować za pomocą R dane z ankiety medycznej (z ponad 100 zakodowanymi kolumnami), które pochodzą z CSV. Użyję grzechotkę jakiegoś wstępnej analizy, ale za kulisami to wciąż R. Jeśli odczytam plik.csv () , kolumny z kodami numerycznymi są traktowane jako dane numeryczne. Zdaję sobie sprawę, że mogę tworzyć z …
Mam ramkę danych w pythonie, w której muszę znaleźć wszystkie zmienne jakościowe. Sprawdzanie typu kolumny nie zawsze działa, ponieważ inttyp może być również kategoryczny. Dlatego szukam pomocy w znalezieniu właściwej metody testowania hipotez, aby ustalić, czy kolumna jest kategoryczna, czy nie. Próbowałem poniżej testu chi-kwadrat, ale nie jestem pewien, czy …
Modele ukarane mogą być wykorzystane do oszacowania modeli, w których liczba parametrów jest równa lub nawet większa niż wielkość próbki. Taka sytuacja może wystąpić w logarytmiczno-liniowych modelach dużych rzadkich tabel danych kategorialnych lub zliczających. W tych ustawieniach często jest również pożądane lub pomocne zwijanie tabel poprzez łączenie poziomów czynnika, przy …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.