Pytania otagowane jako many-categories

Zmienne kategorialne o dużej liczbie poziomów oraz statystyczne metody pracy z takimi zmiennymi (przykład: fused lasso).

6
Zasada zwijania zmiennych jakościowych na wielu poziomach?
Jakie techniki są dostępne do zwijania (lub łączenia) wielu kategorii do kilku, w celu wykorzystania ich jako danych wejściowych (predyktorów) w modelu statystycznym? Rozważ zmienną taką jak kierunek studiów studenckich (dyscyplina wybrana przez studenta). Jest nieuporządkowany i kategoryczny, ale potencjalnie może mieć dziesiątki różnych poziomów. Powiedzmy, że chcę użyć major …


6
Problemy z wykresami kołowymi
Wydaje się, że rośnie liczba dyskusji na temat wykresów kołowych. Głównymi argumentami przeciwko temu wydają się: Obszar jest postrzegany z mniejszą mocą niż długość. Wykresy kołowe mają bardzo niski stosunek danych do punktu pikseli Myślę jednak, że mogą one być w jakiś sposób przydatne przy przedstawianiu proporcji. Zgadzam się używać …

7
jak reprezentować geografię lub kod pocztowy w modelu uczenia maszynowego lub systemie rekomendującym?
Buduję model i myślę, że położenie geograficzne może być bardzo dobre w przewidywaniu zmiennej docelowej. Mam kod pocztowy każdego z moich użytkowników. Nie jestem jednak całkowicie pewien najlepszego sposobu włączenia kodu pocztowego jako funkcji predykcyjnej w moim modelu. Chociaż kod pocztowy jest liczbą, nic nie znaczy, jeśli liczba rośnie lub …


4
Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji
Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Naprawiono efekt vs efekt losowy, gdy wszystkie możliwości są zawarte w modelu efektów mieszanych
W modelu efektów mieszanych zaleca się stosowanie stałego efektu do oszacowania parametru, jeśli uwzględniono wszystkie możliwe poziomy (np. Zarówno mężczyzn, jak i kobiety). Ponadto zaleca się stosowanie efektu losowego w celu uwzględnienia zmiennej, jeśli uwzględnione poziomy są tylko losową próbką z populacji (pacjenci włączeni z wszechświata możliwych pacjentów), a zamiast …

2
Kodowanie funkcji jakościowych do liczb w celu uczenia maszynowego
Wiele algorytmów uczenia maszynowego, na przykład sieci neuronowe, oczekuje obsługi liczb. Tak więc, jeśli masz dane kategoryczne, musisz je przekonwertować. Przez kategoryczne rozumiem na przykład: Marki samochodów: Audi, BMW, Chevrolet ... ID użytkownika: 1, 25, 26, 28 ... Mimo że identyfikatory użytkowników są liczbami, są tylko etykietami i nie oznaczają …

2
Metody łączenia / zmniejszania kategorii w danych porządkowych lub nominalnych?
Próbuję znaleźć sposób na zmniejszenie liczby kategorii w danych nominalnych lub porządkowych. Powiedzmy na przykład, że chcę zbudować model regresji na zbiorze danych, który ma wiele czynników nominalnych i porządkowych. Chociaż nie mam problemów z tym krokiem, często spotykam się z sytuacjami, w których nominalna cecha jest bez obserwacji w …

1
Różnice między PROC Mixed i lme / lmer w R - stopnie swobody
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Zmniejszenie liczby poziomów nieuporządkowanej jakościowej zmiennej predykcyjnej
Chcę wytrenować klasyfikator, powiedzmy SVM, losowy las lub inny klasyfikator. Jedną z cech zestawu danych jest zmienna kategoryczna z 1000 poziomami. Jaki jest najlepszy sposób na zmniejszenie liczby poziomów w tej zmiennej. W R jest funkcja wywoływana combine.levels()w pakiecie Hmisc , która łączy rzadkie poziomy, ale szukałem innych sugestii.

3
Problemy z kodowaniem pojedynczym a kodowaniem pozorowanym
Zdaję sobie sprawę z tego, że zmienne kategorialne o poziomach k powinny być kodowane zmiennymi k-1 w kodowaniu fikcyjnym (podobnie w przypadku wielowartościowych zmiennych jakościowych). Zastanawiałem się, w jakim stopniu problem polega na kodowaniu jednorazowym (tj. Zamiast tego przy użyciu zmiennych k) zamiast kodowaniu fikcyjnym dla różnych metod regresji, głównie …

3
Pakiet R do łączenia poziomów czynników do analizy danych?
Zastanawiasz się, czy ktoś natknął się na pakiet / funkcję w R, która połączy poziomy współczynnika, którego proporcja wszystkich poziomów w współczynniku jest mniejsza niż pewien próg? Konkretnie, jednym z pierwszych kroków w przygotowaniu danych, które przeprowadzam, jest zwinięcie razem nielicznych poziomów czynników (powiedzmy na poziomie zwanym „Inne”), które nie …

1
Karane metody dla danych jakościowych: łączenie poziomów w czynnik
Modele ukarane mogą być wykorzystane do oszacowania modeli, w których liczba parametrów jest równa lub nawet większa niż wielkość próbki. Taka sytuacja może wystąpić w logarytmiczno-liniowych modelach dużych rzadkich tabel danych kategorialnych lub zliczających. W tych ustawieniach często jest również pożądane lub pomocne zwijanie tabel poprzez łączenie poziomów czynnika, przy …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.