Statystyki i duże zbiory danych many-categories

6

Zasada zwijania zmiennych jakościowych na wielu poziomach?

Jakie techniki są dostępne do zwijania (lub łączenia) wielu kategorii do kilku, w celu wykorzystania ich jako danych wejściowych (predyktorów) w modelu statystycznym? Rozważ zmienną taką jak kierunek studiów studenckich (dyscyplina wybrana przez studenta). Jest nieuporządkowany i kategoryczny, ale potencjalnie może mieć dziesiątki różnych poziomów. Powiedzmy, że chcę użyć major …

58 regression categorical-data dimensionality-reduction feature-construction many-categories

6

Popraw klasyfikację za pomocą wielu zmiennych kategorycznych

Pracuję nad zbiorem danych z ponad 200 000 próbek i około 50 cechami na próbkę: 10 zmiennych ciągłych, a pozostałe ~ 40 to zmienne jakościowe (kraje, języki, dziedziny nauki itp.). Dla tych zmiennych kategorialnych masz na przykład 150 różnych krajów, 50 języków, 50 dziedzin naukowych itp. Jak dotąd moje podejście …

37 machine-learning classification categorical-data random-forest many-categories

6

Problemy z wykresami kołowymi

Wydaje się, że rośnie liczba dyskusji na temat wykresów kołowych. Głównymi argumentami przeciwko temu wydają się: Obszar jest postrzegany z mniejszą mocą niż długość. Wykresy kołowe mają bardzo niski stosunek danych do punktu pikseli Myślę jednak, że mogą one być w jakiś sposób przydatne przy przedstawianiu proporcji. Zgadzam się używać …

28 data-visualization many-categories pie-chart

7

jak reprezentować geografię lub kod pocztowy w modelu uczenia maszynowego lub systemie rekomendującym?

Buduję model i myślę, że położenie geograficzne może być bardzo dobre w przewidywaniu zmiennej docelowej. Mam kod pocztowy każdego z moich użytkowników. Nie jestem jednak całkowicie pewien najlepszego sposobu włączenia kodu pocztowego jako funkcji predykcyjnej w moim modelu. Chociaż kod pocztowy jest liczbą, nic nie znaczy, jeśli liczba rośnie lub …

24 machine-learning feature-construction many-categories

5

Losowy Las R nie może obsłużyć więcej niż 32 poziomy. Co to jest obejście?

Losowy pakiet R. pakietu R nie może obsłużyć współczynnika z więcej niż 32 poziomami. Gdy ma więcej niż 32 poziomy, emituje komunikat o błędzie: Nie obsługuje predyktorów jakościowych z więcej niż 32 kategoriami. Ale dane, które mam, mają kilka czynników. Niektóre z nich mają ponad 1000 poziomów, a niektóre ponad …

22 r random-forest many-categories

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

Naprawiono efekt vs efekt losowy, gdy wszystkie możliwości są zawarte w modelu efektów mieszanych

W modelu efektów mieszanych zaleca się stosowanie stałego efektu do oszacowania parametru, jeśli uwzględniono wszystkie możliwe poziomy (np. Zarówno mężczyzn, jak i kobiety). Ponadto zaleca się stosowanie efektu losowego w celu uwzględnienia zmiennej, jeśli uwzględnione poziomy są tylko losową próbką z populacji (pacjenci włączeni z wszechświata możliwych pacjentów), a zamiast …

15 mixed-model random-effects-model fixed-effects-model many-categories

2

Kodowanie funkcji jakościowych do liczb w celu uczenia maszynowego

Wiele algorytmów uczenia maszynowego, na przykład sieci neuronowe, oczekuje obsługi liczb. Tak więc, jeśli masz dane kategoryczne, musisz je przekonwertować. Przez kategoryczne rozumiem na przykład: Marki samochodów: Audi, BMW, Chevrolet ... ID użytkownika: 1, 25, 26, 28 ... Mimo że identyfikatory użytkowników są liczbami, są tylko etykietami i nie oznaczają …

14 machine-learning many-categories

2

Metody łączenia / zmniejszania kategorii w danych porządkowych lub nominalnych?

Próbuję znaleźć sposób na zmniejszenie liczby kategorii w danych nominalnych lub porządkowych. Powiedzmy na przykład, że chcę zbudować model regresji na zbiorze danych, który ma wiele czynników nominalnych i porządkowych. Chociaż nie mam problemów z tym krokiem, często spotykam się z sytuacjami, w których nominalna cecha jest bez obserwacji w …

14 r categorical-data dimensionality-reduction many-categories

1

Różnice między PROC Mixed i lme / lmer w R - stopnie swobody

Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

Zmniejszenie liczby poziomów nieuporządkowanej jakościowej zmiennej predykcyjnej

Chcę wytrenować klasyfikator, powiedzmy SVM, losowy las lub inny klasyfikator. Jedną z cech zestawu danych jest zmienna kategoryczna z 1000 poziomami. Jaki jest najlepszy sposób na zmniejszenie liczby poziomów w tej zmiennej. W R jest funkcja wywoływana combine.levels()w pakiecie Hmisc , która łączy rzadkie poziomy, ale szukałem innych sugestii.

11 classification svm random-forest many-categories

3

Problemy z kodowaniem pojedynczym a kodowaniem pozorowanym

Zdaję sobie sprawę z tego, że zmienne kategorialne o poziomach k powinny być kodowane zmiennymi k-1 w kodowaniu fikcyjnym (podobnie w przypadku wielowartościowych zmiennych jakościowych). Zastanawiałem się, w jakim stopniu problem polega na kodowaniu jednorazowym (tj. Zamiast tego przy użyciu zmiennych k) zamiast kodowaniu fikcyjnym dla różnych metod regresji, głównie …

11 regression multiple-regression categorical-data many-categories

3

Pakiet R do łączenia poziomów czynników do analizy danych?

Zastanawiasz się, czy ktoś natknął się na pakiet / funkcję w R, która połączy poziomy współczynnika, którego proporcja wszystkich poziomów w współczynniku jest mniejsza niż pewien próg? Konkretnie, jednym z pierwszych kroków w przygotowaniu danych, które przeprowadzam, jest zwinięcie razem nielicznych poziomów czynników (powiedzmy na poziomie zwanym „Inne”), które nie …

10 r many-categories

1

Karane metody dla danych jakościowych: łączenie poziomów w czynnik

Modele ukarane mogą być wykorzystane do oszacowania modeli, w których liczba parametrów jest równa lub nawet większa niż wielkość próbki. Taka sytuacja może wystąpić w logarytmiczno-liniowych modelach dużych rzadkich tabel danych kategorialnych lub zliczających. W tych ustawieniach często jest również pożądane lub pomocne zwijanie tabel poprzez łączenie poziomów czynnika, przy …

10 categorical-data lasso elastic-net log-linear many-categories

Pytania otagowane jako many-categories