Statystyki i duże zbiory danych categorical-data

3

Problemy z kodowaniem pojedynczym a kodowaniem pozorowanym

Zdaję sobie sprawę z tego, że zmienne kategorialne o poziomach k powinny być kodowane zmiennymi k-1 w kodowaniu fikcyjnym (podobnie w przypadku wielowartościowych zmiennych jakościowych). Zastanawiałem się, w jakim stopniu problem polega na kodowaniu jednorazowym (tj. Zamiast tego przy użyciu zmiennych k) zamiast kodowaniu fikcyjnym dla różnych metod regresji, głównie …

11 regression multiple-regression categorical-data many-categories

5

Dlaczego za wszelką cenę należy unikać binowania?

Przeczytałem więc kilka postów o tym, dlaczego zawsze należy unikać binowania. Popularnym odniesieniem dla tego roszczenia jest ten link . Główną kwestią jest to, że punkty binningu (lub punkty odcięcia) są raczej arbitralne, jak również wynikająca z tego utrata informacji, i że splajny powinny być preferowane. Jednak obecnie pracuję z …

10 classification categorical-data continuous-data splines binning

1

Jakie są zagrożenia związane z obliczaniem korelacji Pearsona (zamiast tetrachorycznych) dla zmiennych binarnych w analizie czynnikowej?

Prowadzę badania nad grami edukacyjnymi, a niektóre z moich bieżących projektów polegają na wykorzystaniu danych z BoardGameGeek (BGG) i VideoGameGeek (VGG) w celu zbadania związków między elementami projektowania gier (tj. „Osadzonymi w II wojnie światowej”, „wymaga rzucania kostką” ) i oceny tych gier (tj. wyniki na 10). Każdy z tych …

10 r categorical-data factor-analysis binary-data

3

Dlaczego należy wykonać transformację WOE predyktorów jakościowych w regresji logistycznej?

Kiedy użyteczne jest przekształcanie zmiennych kategorialnych według wagi dowodu (WOE)? Przykład można zobaczyć w transformacji WOE (Tak na odpowiedź , i kategorycznym predyktora z kategoriach & sukcesów poza n_j prób w j th kategorii tej predykcyjnych, Biada j th Kategoria ta jest zdefiniowana jakok y j n j j jyyykkkyjotyjoty_jnjotnjotn_jjotjotjjjj …

10 logistic categorical-data regression-strategies

4

Jak nazywa się ten schemat

Czy ktoś może mi powiedzieć, jak nazywa się ten typ diagramu (jeśli istnieje)? Czy ktoś może również zasugerować dowolne narzędzia, choćby proste, aby wykreślić taki schemat?

10 categorical-data proportion

2

Czy typy danych (nominalne / porządkowe / interwałowe / stosunek) naprawdę powinny być uważane za typy zmiennych?

Oto na przykład definicje, które otrzymuję ze standardowych podręczników Zmienna - charakterystyczna dla populacji lub próby. dawny. Cena akcji lub oceny na teście Dane - rzeczywiste obserwowane wartości Tak więc dla raportu dwukolumnowego [Nazwa | Dochód] nazwami kolumn byłyby zmienne, a rzeczywiste zaobserwowane wartości {dave | 100K}, {jim | 200 …

10 dataset ordinal-data categorical-data ratio

1

Jak interpretować test Cochrana-Mantela-Haenszela?

Testuję niezależność dwóch zmiennych, A i B, stratyfikowanych według C. A i B są zmiennymi binarnymi, a C jest kategoryczne (5 wartości). Przeprowadzając dokładny test Fishera dla A i B (wszystkie warstwy łącznie), otrzymuję: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 …

10 categorical-data interpretation inference contingency-tables fishers-exact

1

Jak włączyć innowacyjną wartość odstającą przy obserwacji 48 w moim modelu ARIMA?

Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1). Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych. Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

3

Model wielomianowy-Dirichleta z rozkładem hiperpriorów na parametry stężenia

Postaram się opisać problem tak ogólnie, jak to możliwe. Modeluję obserwacje jako rozkład kategoryczny z parametrem wektor prawdopodobieństwa theta. Następnie zakładam, że wektor parametrów theta podąża za rozkładem Dirichleta z parametrami α1,α2,…,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k . Czy można zatem narzucić również rozkład hiperpriorów na parametry α1,α2,…,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k ? Czy będzie to rozkład wielowymiarowy, taki …

10 categorical-data multinomial dirichlet-distribution hierarchical-bayesian dirichlet-process

2

Czy wielokoliniowość jest ukryta w zmiennych jakościowych?

Zauważyłem, że podczas majstrowania przy modelu regresji wielowymiarowej zaobserwowano niewielki, ale zauważalny efekt wielokoliniowości, mierzony współczynnikami inflacji wariancji, w kategoriach zmiennej jakościowej (oczywiście po wykluczeniu kategorii odniesienia). Załóżmy na przykład, że mamy zestaw danych ze zmienną ciągłą y i jedną nominalną zmienną kategorialną x, która ma k możliwych wzajemnie wykluczających …

10 regression categorical-data multicollinearity

2

Korelacja między zmienną dychotomiczną i zmienną ciągłą

Próbuję znaleźć korelację między zmienną dychotomiczną i zmienną ciągłą. Na podstawie moich prac nad tym stwierdziłem, że muszę zastosować niezależny test t, a warunkiem tego jest, aby rozkład zmiennej był normalny. Przeprowadziłem test Kołmogorowa-Smirnowa w celu przetestowania normalności i stwierdziłem, że zmienna ciągła jest nienormalna i jest wypaczona (dla około …

10 normal-distribution categorical-data continuous-data kolmogorov-smirnov association-measure

3

Jak radzić sobie z niebinarnymi zmiennymi kategorialnymi w regresji logistycznej (SPSS)

Muszę wykonać binarną regresję logistyczną z wieloma niezależnymi zmiennymi. Większość z nich ma charakter binarny, ale kilka zmiennych kategorialnych ma więcej niż dwa poziomy. Jaki jest najlepszy sposób radzenia sobie z takimi zmiennymi? Na przykład, dla zmiennej o trzech możliwych wartościach, przypuszczam, że należy utworzyć dwie zmienne fikcyjne. Następnie, w …

10 logistic categorical-data spss ordinal-data categorical-encoding

2

Czy można bezpośrednio odczytywać kolumny CSV jako dane kategoryczne?

Muszę przeanalizować za pomocą R dane z ankiety medycznej (z ponad 100 zakodowanymi kolumnami), które pochodzą z CSV. Użyję grzechotkę jakiegoś wstępnej analizy, ale za kulisami to wciąż R. Jeśli odczytam plik.csv () , kolumny z kodami numerycznymi są traktowane jako dane numeryczne. Zdaję sobie sprawę, że mogę tworzyć z …

10 r categorical-data data-transformation

4

Jak statystycznie udowodnić, czy kolumna zawiera dane kategoryczne, czy też nie używa Pythona

Mam ramkę danych w pythonie, w której muszę znaleźć wszystkie zmienne jakościowe. Sprawdzanie typu kolumny nie zawsze działa, ponieważ inttyp może być również kategoryczny. Dlatego szukam pomocy w znalezieniu właściwej metody testowania hipotez, aby ustalić, czy kolumna jest kategoryczna, czy nie. Próbowałem poniżej testu chi-kwadrat, ale nie jestem pewien, czy …

10 hypothesis-testing categorical-data python chi-squared categorical-encoding

1

Karane metody dla danych jakościowych: łączenie poziomów w czynnik

Modele ukarane mogą być wykorzystane do oszacowania modeli, w których liczba parametrów jest równa lub nawet większa niż wielkość próbki. Taka sytuacja może wystąpić w logarytmiczno-liniowych modelach dużych rzadkich tabel danych kategorialnych lub zliczających. W tych ustawieniach często jest również pożądane lub pomocne zwijanie tabel poprzez łączenie poziomów czynnika, przy …

10 categorical-data lasso elastic-net log-linear many-categories

Pytania otagowane jako categorical-data