Pytania otagowane jako categorical-data

Dane kategoryczne (zwane również nominalnymi) mogą przyjmować ograniczoną liczbę możliwych wartości zwanych kategoriami. Wartości kategoryczne „etykieta”, nie „mierzą”. Proszę użyć znacznika [ordinal-data] dla dyskretnych, ale uporządkowanych typów danych.

3
Właściwy sposób radzenia sobie z 3-poziomową tabelą awaryjną
Mam trzypoziomową tabelę zdarzeń awaryjnych, z danymi zliczeń dla kilku gatunków, rośliny żywicielskiej, z której zostały zebrane, oraz tego, czy zbiór ten miał miejsce w deszczowy dzień (to naprawdę ma znaczenie!). Przy użyciu R fałszywe dane mogą wyglądać mniej więcej tak: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) …


3
Jakie algorytmy wymagają jednorazowego kodowania?
Nigdy nie jestem pewien, kiedy zastosować kodowanie „na gorąco” w przypadku niez uporządkowanych zmiennych kategorialnych, a kiedy nie. Używam go, ilekroć algorytm używa metryki odległości do obliczenia podobieństwa. Czy ktokolwiek może podać ogólną ogólną zasadę, jakie typy algorytmów wymagają, aby niez uporządkowane funkcje kategorialne były zakodowane na gorąco, a które …


1
Jaka jest optymalna funkcja odległości dla osób, gdy atrybuty są nominalne?
Nie wiem, jakiej funkcji odległości między osobami należy użyć w przypadku nominalnych (nieuporządkowanych atrybutów kategorialnych). Czytałem jakiś podręcznik i sugerują one funkcję Simple Matching, ale niektóre książki sugerują, że powinienem zmienić atrybuty nominalne na binarne i użyć współczynnika Jaccard . Co jednak, jeśli wartości atrybutu nominalnego nie wynoszą 2? co …

2
glmnet: Jak zrozumieć parametryzację wielomianową?
Następujący problem: chcę przewidzieć zmienną jakościową z jedną (lub więcej) zmiennymi jakościowymi za pomocą glmnet (). Nie mogę jednak zrozumieć, jaki wynik daje mi glmnet. Ok, najpierw wygenerujmy dwie powiązane zmienne jakościowe: Generuj dane p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] <- .8 #some …



2
Kolinearność między zmiennymi kategorialnymi
Wiele jest o kolinearności w odniesieniu do predyktorów ciągłych, ale nie tak bardzo, że mogę znaleźć na predyktory jakościowe. Mam dane tego typu zilustrowane poniżej. Pierwszy czynnik to zmienna genetyczna (liczba alleli), drugi czynnik to kategoria choroby. Najwyraźniej geny poprzedzają chorobę i są czynnikiem pokazującym objawy, które prowadzą do diagnozy. …

2
Czy powinienem uruchamiać osobne regresje dla każdej społeczności, czy może społeczność może po prostu być zmienną kontrolującą w modelu zagregowanym?
Korzystam z modelu OLS z ciągłą zmienną indeksu aktywów jako DV. Moje dane są agregowane z trzech podobnych społeczności znajdujących się blisko siebie. Mimo to uważałem, że ważne jest, aby używać społeczności jako zmiennej kontrolującej. Jak się okazuje, społeczność jest znacząca na poziomie 1% (wynik t -4,52). Społeczność jest zmienną …

2
Szybko ocenić (wizualnie) korelacje między uporządkowanymi danymi kategorialnymi w R?
Szukam korelacji między odpowiedziami na różne pytania w ankiecie („umm, zobaczmy, czy odpowiedzi na pytanie 11 korelują z odpowiedziami na pytanie 78”). Wszystkie odpowiedzi są kategoryczne (większość z nich „od bardzo nieszczęśliwych” do „bardzo szczęśliwych”), ale kilka z nich ma inny zestaw odpowiedzi. Większość z nich można uznać za porządkowe, …

6
Jak znaleźć statystyki podsumowujące dla wszystkich unikalnych kombinacji czynników w ramce data.frame w R? [Zamknięte]
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Chcę obliczyć podsumowanie zmiennej w data.frame dla każdej unikalnej kombinacji czynników w data.frame. Czy powinienem użyć do tego plyr? Nie …

4
Wiele testów chi-kwadrat
Mam sklasyfikowane dane w tabeli 2 x 2 x 6. Nazwijmy wymiary response, Ai B. Dopasowuję regresję logistyczną do danych za pomocą modelu response ~ A * B. Analiza dewiacji tego modelu wskazuje, że oba terminy i ich interakcja są znaczące. Jednak patrząc na proporcje danych, wygląda na to, że …

1
R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
Jak przeprowadzić analizę resztkową dla binarnych / dychotomicznych niezależnych predyktorów w regresji liniowej?
Przeprowadzam wielokrotną regresję liniową poniżej w R, aby przewidzieć zwrot z zarządzanego funduszu. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Tutaj tylko GRI i MBA są predyktorami binarnymi / dychotomicznymi; pozostałe predyktory są ciągłe. Używam tego kodu do generowania wykresów resztkowych dla zmiennych binarnych. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.