Pytania otagowane jako categorical-encoding

Reprezentowanie zmiennych kategorialnych jako zbiory zmiennych numerycznych. Niezbędne w wielu typach analiz do przetwarzania danych kategorycznych. Typowym przykładem jest użycie predyktora jakościowego w regresji / ANOVA poprzez kodowanie pozorne, kodowanie efektów, kodowanie Helmerta, kontrasty zdefiniowane przez użytkownika itp.


3
Zmienna wskaźnikowa dla danych binarnych: {-1,1} vs {0,1}
Ja zainteresowany interakcji leczeniem współzmienną w kontekście doświadczeń / randomizacją z binarnego przypisywania traktowania wskaźnik TTT . W zależności od konkretnej metody / źródła widziałem zarówno T={1,0}T={1,0}T=\{1,0\} i dla leczonych i nieleczonych pacjentów.T={1,−1}T={1,−1}T=\{1, -1\} Czy jest jakaś reguła, kiedy używać lub ?{1,0}{1,0}\{1,0\}{1,−1}{1,−1}\{1, -1\} Czym różni się interpretacja?

3
Jak radzić sobie z niebinarnymi zmiennymi kategorialnymi w regresji logistycznej (SPSS)
Muszę wykonać binarną regresję logistyczną z wieloma niezależnymi zmiennymi. Większość z nich ma charakter binarny, ale kilka zmiennych kategorialnych ma więcej niż dwa poziomy. Jaki jest najlepszy sposób radzenia sobie z takimi zmiennymi? Na przykład, dla zmiennej o trzech możliwych wartościach, przypuszczam, że należy utworzyć dwie zmienne fikcyjne. Następnie, w …

4
Jak statystycznie udowodnić, czy kolumna zawiera dane kategoryczne, czy też nie używa Pythona
Mam ramkę danych w pythonie, w której muszę znaleźć wszystkie zmienne jakościowe. Sprawdzanie typu kolumny nie zawsze działa, ponieważ inttyp może być również kategoryczny. Dlatego szukam pomocy w znalezieniu właściwej metody testowania hipotez, aby ustalić, czy kolumna jest kategoryczna, czy nie. Próbowałem poniżej testu chi-kwadrat, ale nie jestem pewien, czy …

1
R regresja liniowa zmienna kategorialna „ukryta” wartość
To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.