Statystyki i duże zbiory danych categorical-data

3

Właściwy sposób radzenia sobie z 3-poziomową tabelą awaryjną

Mam trzypoziomową tabelę zdarzeń awaryjnych, z danymi zliczeń dla kilku gatunków, rośliny żywicielskiej, z której zostały zebrane, oraz tego, czy zbiór ten miał miejsce w deszczowy dzień (to naprawdę ma znaczenie!). Przy użyciu R fałszywe dane mogą wyglądać mniej więcej tak: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) …

12 r categorical-data log-linear

3

Czy mogę zastosować regresję wielokrotną, jeśli mam mieszane predyktory jakościowe i ciągłe?

Wygląda na to, że możesz użyć kodowania dla jednej zmiennej jakościowej, ale mam dwie zmienne jakościowe i jedną zmienną predykcyjną ciągłą. Czy mogę użyć do tego wielokrotnej regresji w SPSS, a jeśli tak, to w jaki sposób? dzięki!

12 regression spss categorical-data continuous-data

3

Jakie algorytmy wymagają jednorazowego kodowania?

Nigdy nie jestem pewien, kiedy zastosować kodowanie „na gorąco” w przypadku niez uporządkowanych zmiennych kategorialnych, a kiedy nie. Używam go, ilekroć algorytm używa metryki odległości do obliczenia podobieństwa. Czy ktokolwiek może podać ogólną ogólną zasadę, jakie typy algorytmów wymagają, aby niez uporządkowane funkcje kategorialne były zakodowane na gorąco, a które …

12 machine-learning categorical-data categorical-encoding data-preprocessing

2

Dlaczego dopasowanie modelu z czynnikiem wielopoziomowym zajmuje dużo czasu?

Dopasowuję model o współczynniku z wieloma poziomami i dopasowanie R zajmuje naprawdę dużo czasu. Dlaczego to? Na przykład, jeśli dopasuję regresję do przewidywania wynagrodzeń graczy i dołączę czynnik prognostyczny dla wszystkich narodowości graczy, zajęłoby to więcej czasu niż dopasowanie modelu wynagrodzeń graczy z ciągłym predyktorem, np. wysokości.

12 regression categorical-data

1

Jaka jest optymalna funkcja odległości dla osób, gdy atrybuty są nominalne?

Nie wiem, jakiej funkcji odległości między osobami należy użyć w przypadku nominalnych (nieuporządkowanych atrybutów kategorialnych). Czytałem jakiś podręcznik i sugerują one funkcję Simple Matching, ale niektóre książki sugerują, że powinienem zmienić atrybuty nominalne na binarne i użyć współczynnika Jaccard . Co jednak, jeśli wartości atrybutu nominalnego nie wynoszą 2? co …

12 distance-functions distance similarities association-measure categorical-data

2

glmnet: Jak zrozumieć parametryzację wielomianową?

Następujący problem: chcę przewidzieć zmienną jakościową z jedną (lub więcej) zmiennymi jakościowymi za pomocą glmnet (). Nie mogę jednak zrozumieć, jaki wynik daje mi glmnet. Ok, najpierw wygenerujmy dwie powiązane zmienne jakościowe: Generuj dane p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] <- .8 #some …

11 categorical-data multinomial glmnet

2

Jak znaleźć miarę korelacji między dwiema zmiennymi nominalnymi?

Przeprowadzono ankietę, w której ludzie wybrali to, czego używają do wywołania określonej buźki, i wjechali do kraju pochodzenia. Przekodowałem odpowiedzi tekstowe na numeryczne. Jaką formę analizy należy zastosować (najlepiej w SPSS), aby sprawdzić poziom korelacji między tym, skąd pochodzą ludzie, a reprezentacjami, które wybrali?

11 correlation spss categorical-data

2

Regresja oparta na przykład na dniach tygodnia

Potrzebuję niewielkiej pomocy, aby iść w dobrym kierunku. Minęło dużo czasu, odkąd studiowałem statystyki i wydaje się, że żargon się zmienił. Wyobraź sobie, że mam zestaw danych związanych z samochodem, takich jak Czas podróży z miasta A do miasta B Odległość od miasta A do miasta B. Rozmiar silnika Rozmiar …

11 regression categorical-data categorical-encoding

2

Kolinearność między zmiennymi kategorialnymi

Wiele jest o kolinearności w odniesieniu do predyktorów ciągłych, ale nie tak bardzo, że mogę znaleźć na predyktory jakościowe. Mam dane tego typu zilustrowane poniżej. Pierwszy czynnik to zmienna genetyczna (liczba alleli), drugi czynnik to kategoria choroby. Najwyraźniej geny poprzedzają chorobę i są czynnikiem pokazującym objawy, które prowadzą do diagnozy. …

11 r anova categorical-data multicollinearity sums-of-squares

2

Czy powinienem uruchamiać osobne regresje dla każdej społeczności, czy może społeczność może po prostu być zmienną kontrolującą w modelu zagregowanym?

Korzystam z modelu OLS z ciągłą zmienną indeksu aktywów jako DV. Moje dane są agregowane z trzech podobnych społeczności znajdujących się blisko siebie. Mimo to uważałem, że ważne jest, aby używać społeczności jako zmiennej kontrolującej. Jak się okazuje, społeczność jest znacząca na poziomie 1% (wynik t -4,52). Społeczność jest zmienną …

11 regression categorical-data stata multiple-regression aggregation

2

Szybko ocenić (wizualnie) korelacje między uporządkowanymi danymi kategorialnymi w R?

Szukam korelacji między odpowiedziami na różne pytania w ankiecie („umm, zobaczmy, czy odpowiedzi na pytanie 11 korelują z odpowiedziami na pytanie 78”). Wszystkie odpowiedzi są kategoryczne (większość z nich „od bardzo nieszczęśliwych” do „bardzo szczęśliwych”), ale kilka z nich ma inny zestaw odpowiedzi. Większość z nich można uznać za porządkowe, …

11 r correlation categorical-data data-visualization

6

Jak znaleźć statystyki podsumowujące dla wszystkich unikalnych kombinacji czynników w ramce data.frame w R? [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Chcę obliczyć podsumowanie zmiennej w data.frame dla każdej unikalnej kombinacji czynników w data.frame. Czy powinienem użyć do tego plyr? Nie …

11 r categorical-data aggregation plyr

4

Wiele testów chi-kwadrat

Mam sklasyfikowane dane w tabeli 2 x 2 x 6. Nazwijmy wymiary response, Ai B. Dopasowuję regresję logistyczną do danych za pomocą modelu response ~ A * B. Analiza dewiacji tego modelu wskazuje, że oba terminy i ich interakcja są znaczące. Jednak patrząc na proporcje danych, wygląda na to, że …

11 categorical-data logistic multiple-comparisons chi-squared

1

R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?

mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Jak przeprowadzić analizę resztkową dla binarnych / dychotomicznych niezależnych predyktorów w regresji liniowej?

Przeprowadzam wielokrotną regresję liniową poniżej w R, aby przewidzieć zwrot z zarządzanego funduszu. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Tutaj tylko GRI i MBA są predyktorami binarnymi / dychotomicznymi; pozostałe predyktory są ciągłe. Używam tego kodu do generowania wykresów resztkowych dla zmiennych binarnych. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) …

11 r multiple-regression categorical-data heteroscedasticity residuals

Pytania otagowane jako categorical-data