Pytania otagowane jako categorical-data

Dane kategoryczne (zwane również nominalnymi) mogą przyjmować ograniczoną liczbę możliwych wartości zwanych kategoriami. Wartości kategoryczne „etykieta”, nie „mierzą”. Proszę użyć znacznika [ordinal-data] dla dyskretnych, ale uporządkowanych typów danych.

3
Problemy z kodowaniem pojedynczym a kodowaniem pozorowanym
Zdaję sobie sprawę z tego, że zmienne kategorialne o poziomach k powinny być kodowane zmiennymi k-1 w kodowaniu fikcyjnym (podobnie w przypadku wielowartościowych zmiennych jakościowych). Zastanawiałem się, w jakim stopniu problem polega na kodowaniu jednorazowym (tj. Zamiast tego przy użyciu zmiennych k) zamiast kodowaniu fikcyjnym dla różnych metod regresji, głównie …


1
Jakie są zagrożenia związane z obliczaniem korelacji Pearsona (zamiast tetrachorycznych) dla zmiennych binarnych w analizie czynnikowej?
Prowadzę badania nad grami edukacyjnymi, a niektóre z moich bieżących projektów polegają na wykorzystaniu danych z BoardGameGeek (BGG) i VideoGameGeek (VGG) w celu zbadania związków między elementami projektowania gier (tj. „Osadzonymi w II wojnie światowej”, „wymaga rzucania kostką” ) i oceny tych gier (tj. wyniki na 10). Każdy z tych …

3
Dlaczego należy wykonać transformację WOE predyktorów jakościowych w regresji logistycznej?
Kiedy użyteczne jest przekształcanie zmiennych kategorialnych według wagi dowodu (WOE)? Przykład można zobaczyć w transformacji WOE (Tak na odpowiedź , i kategorycznym predyktora z kategoriach & sukcesów poza n_j prób w j th kategorii tej predykcyjnych, Biada j th Kategoria ta jest zdefiniowana jakok y j n j j jyyykkkyjotyjoty_jnjotnjotn_jjotjotjjjj …


2
Czy typy danych (nominalne / porządkowe / interwałowe / stosunek) naprawdę powinny być uważane za typy zmiennych?
Oto na przykład definicje, które otrzymuję ze standardowych podręczników Zmienna - charakterystyczna dla populacji lub próby. dawny. Cena akcji lub oceny na teście Dane - rzeczywiste obserwowane wartości Tak więc dla raportu dwukolumnowego [Nazwa | Dochód] nazwami kolumn byłyby zmienne, a rzeczywiste zaobserwowane wartości {dave | 100K}, {jim | 200 …


1
Jak włączyć innowacyjną wartość odstającą przy obserwacji 48 w moim modelu ARIMA?
Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1). Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych. Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
Model wielomianowy-Dirichleta z rozkładem hiperpriorów na parametry stężenia
Postaram się opisać problem tak ogólnie, jak to możliwe. Modeluję obserwacje jako rozkład kategoryczny z parametrem wektor prawdopodobieństwa theta. Następnie zakładam, że wektor parametrów theta podąża za rozkładem Dirichleta z parametrami α1,α2,…,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k . Czy można zatem narzucić również rozkład hiperpriorów na parametry α1,α2,…,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k ? Czy będzie to rozkład wielowymiarowy, taki …

2
Czy wielokoliniowość jest ukryta w zmiennych jakościowych?
Zauważyłem, że podczas majstrowania przy modelu regresji wielowymiarowej zaobserwowano niewielki, ale zauważalny efekt wielokoliniowości, mierzony współczynnikami inflacji wariancji, w kategoriach zmiennej jakościowej (oczywiście po wykluczeniu kategorii odniesienia). Załóżmy na przykład, że mamy zestaw danych ze zmienną ciągłą y i jedną nominalną zmienną kategorialną x, która ma k możliwych wzajemnie wykluczających …

2
Korelacja między zmienną dychotomiczną i zmienną ciągłą
Próbuję znaleźć korelację między zmienną dychotomiczną i zmienną ciągłą. Na podstawie moich prac nad tym stwierdziłem, że muszę zastosować niezależny test t, a warunkiem tego jest, aby rozkład zmiennej był normalny. Przeprowadziłem test Kołmogorowa-Smirnowa w celu przetestowania normalności i stwierdziłem, że zmienna ciągła jest nienormalna i jest wypaczona (dla około …

3
Jak radzić sobie z niebinarnymi zmiennymi kategorialnymi w regresji logistycznej (SPSS)
Muszę wykonać binarną regresję logistyczną z wieloma niezależnymi zmiennymi. Większość z nich ma charakter binarny, ale kilka zmiennych kategorialnych ma więcej niż dwa poziomy. Jaki jest najlepszy sposób radzenia sobie z takimi zmiennymi? Na przykład, dla zmiennej o trzech możliwych wartościach, przypuszczam, że należy utworzyć dwie zmienne fikcyjne. Następnie, w …


4
Jak statystycznie udowodnić, czy kolumna zawiera dane kategoryczne, czy też nie używa Pythona
Mam ramkę danych w pythonie, w której muszę znaleźć wszystkie zmienne jakościowe. Sprawdzanie typu kolumny nie zawsze działa, ponieważ inttyp może być również kategoryczny. Dlatego szukam pomocy w znalezieniu właściwej metody testowania hipotez, aby ustalić, czy kolumna jest kategoryczna, czy nie. Próbowałem poniżej testu chi-kwadrat, ale nie jestem pewien, czy …

1
Karane metody dla danych jakościowych: łączenie poziomów w czynnik
Modele ukarane mogą być wykorzystane do oszacowania modeli, w których liczba parametrów jest równa lub nawet większa niż wielkość próbki. Taka sytuacja może wystąpić w logarytmiczno-liniowych modelach dużych rzadkich tabel danych kategorialnych lub zliczających. W tych ustawieniach często jest również pożądane lub pomocne zwijanie tabel poprzez łączenie poziomów czynnika, przy …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.