Statystyki i duże zbiory danych chi-squared

1

Jak dostosować ANOVA do danych binarnych?

Mam cztery konkurencyjne modele, których używam do przewidywania binarnej zmiennej wynikowej (powiedzmy, status zatrudnienia po ukończeniu studiów, 1 = zatrudniony, 0 = niezatrudniony) dla n badanych. Naturalną miarą wydajności modelu jest współczynnik trafień, który jest procentem poprawnych prognoz dla każdego z modeli. Wydaje mi się, że nie mogę użyć ANOVA …

11 anova chi-squared generalized-linear-model

1

R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?

mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Jaki rozkład zakłada dokładny test Fishera?

W swojej pracy widziałem kilka zastosowań dokładnego testu Fishera i zastanawiałem się, jak dobrze pasuje do moich danych. Patrząc na kilka źródeł, rozumiałem, jak obliczyć statystyki, ale nigdy nie widziałem jasnego i formalnego wyjaśnienia przyjętej hipotezy zerowej. Czy ktoś może mi wyjaśnić lub odesłać mnie do formalnego wyjaśnienia zakładanego podziału? …

11 hypothesis-testing chi-squared multinomial contingency-tables fishers-exact

1

Który test do analizy krzyżowej: Boschloo czy Barnard?

Analizuję tabelę 2x2 z małego zestawu danych 30 pacjentów. Próbujemy retrospektywnie znaleźć pewne zmienne, które podpowiadają, jaki rodzaj leczenia wybrać. Zmienne (obs normalne / dziwne) i decyzja dotycząca leczenia (A / B) są szczególnie interesujące i dlatego dane wyglądają tak: Obs / Tr. GrudnianormalnadziwneZA12012b1351825530Obs/Tr. Dec.ABnormal121325strange055121830\begin{array} {|r|r|r|r|} \hline \text{Obs/Tr. Dec.} &\text{A} …

11 chi-squared power contingency-tables fishers-exact

2

Oczekiwanie na

Niech , , , i niech będą niezależni. Czego oczekuje się od ?X1X1X_1X2X2X_2⋯⋯\cdotsXd∼N(0,1)Xd∼N(0,1)X_d \sim \mathcal{N}(0, 1)X41(X21+⋯+X2d)2X14(X12+⋯+Xd2)2\frac{X_1^4}{(X_1^2 + \cdots + X_d^2)^2} Łatwo jest znaleźć symetrycznie. Ale nie wiem, jak znaleźć oczekiwanie na . Czy możesz podać jakieś wskazówki?E(X21X21+⋯+X2d)=1dE(X12X12+⋯+Xd2)=1d\mathbb{E}\left(\frac{X_1^2}{X_1^2 + \cdots + X_d^2}\right) = \frac{1}{d}X41(X21+⋯+X2d)2X14(X12+⋯+Xd2)2\frac{X_1^4}{(X_1^2 + \cdots + X_d^2)^2} Co dotychczas uzyskałem …

10 probability self-study normal-distribution chi-squared expected-value

1

Test dwóch próbek chi do kwadratu

To pytanie pochodzi z książki Van der Vaarta Asymptotic Statistics, str. 253. # 3: Załóżmy, że XmXm\mathbf{X}_m i YnYn\mathbf{Y}_n to niezależne wielomianowy wektorów parametrów (m,a1,…,ak)(m,a1,…,ak)(m,a_1,\ldots,a_k) a (n,b1,…,bk)(n,b1,…,bk)(n,b_1,\ldots,b_k) . Zgodnie z hipotezą zerową, że I = b I wskazują, żeai=biai=bia_i=b_i maχ 2 k - 1 dystrybucji. gdzie C i=(Xm,I+Yn,i)/(m+n).∑i=1k(Xm,i−mc^i)2mc^i+∑i=1k(Yn,i−nc^i)2nc^i∑i=1k(Xm,i−mc^i)2mc^i+∑i=1k(Yn,i−nc^i)2nc^i\sum_{i=1}^k \dfrac{(X_{m,i} - …

10 self-study chi-squared multinomial central-limit-theorem

1

Regresja logistyczna vs chi-kwadrat w tablicach kontyngencji 2x2 i Ix2 (pojedynczy czynnik - odpowiedź binarna)?

Próbuję zrozumieć zastosowanie regresji logistycznej w tabelach awaryjnych 2x2 i Ix2. Na przykład, używając tego jako przykładu Jaka jest różnica między użyciem testu chi-kwadrat a użyciem regresji logistycznej? Co z tabelą z wieloma współczynnikami nominalnymi (tabela Ix2) w następujący sposób: Jest to podobne pytanie tutaj - ale odpowiedź jest głównie …

10 logistic chi-squared logit contingency-tables

3

Test G vs test chi-kwadrat Pearsona

Testuję niezależność w tabeli awaryjności Nie wiem, czy test G czy test chi-kwadrat Pearsona jest lepszy. Rozmiar próbki jest w setkach, ale istnieją pewne niskie liczby komórek. Jak stwierdzono na stronie Wikipedii , przybliżenie rozkładu chi-kwadrat jest lepsze dla testu G niż dla testu chi-kwadrat Pearsona. Ale używam symulacji Monte …

10 chi-squared p-value monte-carlo contingency-tables

2

W jaki sposób statystyki chi-kwadrat Pearsona przybliżają rozkład chi-kwadrat

Jeśli więc podana jest chi-kwadratowa statystyka Pearsona dla tabeli , wówczas jej forma jest następująca:1×N1×N1 \times N ∑i=1n(Oi−Ei)2Ei∑i=1n(Oi−Ei)2Ei\sum_{i=1}^n\frac{(O_i - E_i)^2}{E_i} W przybliżeniu , rozkład chi-kwadrat z n - 1 stopniami swobody, gdy wielkość próbki N powiększa się. χ2n−1χn−12\chi_{n-1}^2n−1n−1n-1NNN Nie rozumiem, jak działa to asymptotyczne przybliżenie. Czuję, że w mianownikach należy …

10 chi-squared asymptotics

1

Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?

Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Przedział ufności dla chi-kwadrat

Próbuję znaleźć rozwiązanie, aby porównać dwa testy „dobroci dopasowania chi-kwadrat”. Dokładniej, chcę porównać wyniki z dwóch niezależnych eksperymentów. W tych eksperymentach autorzy wykorzystali chi-kwadrat dobroci dopasowania, aby porównać losowe zgadywanie (częstotliwości oczekiwane) z częstotliwościami obserwowanymi. Dwa eksperymenty otrzymały taką samą liczbę uczestników, a procedury eksperymentalne są identyczne, zmieniono tylko bodźce. …

10 r confidence-interval chi-squared

2

Test chi-kwadrat dla równości rozkładów: ile zer toleruje?

Porównuję dwie grupy mutantów, z których każda może mieć tylko jeden z 21 różnych fenotypów. Chciałbym zobaczyć, czy rozkład tych wyników jest podobny między dwiema grupami. Znalazłem test online, który oblicza „test chi-kwadrat dla równości rozkładów” i daje pewne wiarygodne wyniki. Mam jednak kilka zer w tej tabeli, więc czy …

10 distributions chi-squared contingency-tables

4

Jak statystycznie udowodnić, czy kolumna zawiera dane kategoryczne, czy też nie używa Pythona

Mam ramkę danych w pythonie, w której muszę znaleźć wszystkie zmienne jakościowe. Sprawdzanie typu kolumny nie zawsze działa, ponieważ inttyp może być również kategoryczny. Dlatego szukam pomocy w znalezieniu właściwej metody testowania hipotez, aby ustalić, czy kolumna jest kategoryczna, czy nie. Próbowałem poniżej testu chi-kwadrat, ale nie jestem pewien, czy …

10 hypothesis-testing categorical-data python chi-squared categorical-encoding

2

Test niezależności a test jednorodności

Uczę podstawowego kursu statystycznego i dziś obejmę test niezależności chi-kwadrat dla dwóch kategorii oraz test jednorodności. Te dwa scenariusze są koncepcyjnie różne, ale mogą wykorzystywać tę samą statystykę testową i rozkład. W teście jednorodności zakłada się, że krańcowe wartości dla jednej z kategorii są częścią samego projektu - reprezentują liczbę …

10 chi-squared independence heteroscedasticity teaching

4

Jak mogę obliczyć Pearsona

Wskaźnik prawdopodobieństwa (inaczej dewiacja) Statystyka i test braku dopasowania (lub dobroci dopasowania) jest dość prosty do uzyskania dla modelu regresji logistycznej (dopasowanie przy użyciu funkcji) w R. Jednak może być łatwe jest, aby niektóre liczby komórek były wystarczająco niskie, aby test był niewiarygodny. Jednym ze sposobów weryfikacji wiarygodności testu współczynnika …

10 r chi-squared logistic generalized-linear-model goodness-of-fit

Pytania otagowane jako chi-squared