Statystyki i duże zbiory danych chi-squared

1

Zrozumienie testu chi-kwadrat i rozkładu chi-kwadrat

Próbuję zrozumieć logikę testu chi-kwadrat. Test chi-kwadrat to . jest następnie porównywany z rozkładem chi-kwadrat, aby znaleźć wartość p. w celu odrzucenia lub nie hipotezy zerowej. : obserwacje pochodzą z rozkładu, którego użyliśmy do stworzenia naszych oczekiwanych wartości. Na przykład moglibyśmy sprawdzić, czy prawdopodobieństwo uzyskania jest podane przez tak jak …

13 probability distributions normal-distribution mathematical-statistics chi-squared

5

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Test vs -test do porównywania szans na przeziębienie w 2 grupach

Właśnie przeczytałem w dość szanowanym (popularnym) magazynie naukowym (niemiecki premier, 02/2013, s. 36) o ciekawym eksperymencie (niestety bez źródła). Przyciągnęło to moją uwagę, ponieważ intuicyjnie wątpiłem w znaczenie wyniku, ale dostarczone informacje były wystarczające do odtworzenia testów statystycznych. Naukowcy zastanawiali się, czy przeziębienie w zimne dni zwiększa szanse na przeziębienie. …

12 hypothesis-testing chi-squared experiment-design proportion biostatistics

2

Dlaczego test niezależności wykorzystuje rozkład chi-kwadrat?

Test dobroci dopasowania wykorzystuje następującą statystykę : W teście warunki są spełnione, Można użyć - rozkład obliczyć p-wartość, biorąc pod uwagę prawda można by zaobserwować w takiej wartości reprezentatywnej próbki o tej samej wielkości.χ 2 0 = n ∑ i = 1 ( O i - E i ) 2χ2)χ2)\chi^2 …

12 hypothesis-testing chi-squared

2

Dostosowanie wartości p dla adaptacyjnej analizy sekwencyjnej (dla testu chi kwadrat)?

Chciałbym wiedzieć, która literatura statystyczna jest istotna dla następującego problemu, a może nawet pomysł, jak go rozwiązać. Wyobraź sobie następujący problem: Mamy 4 możliwe sposoby leczenia niektórych chorób. Aby sprawdzić, które leczenie jest lepsze, przeprowadzamy specjalną próbę. W rozprawie zaczynamy od braku podmiotów, a następnie, jeden po drugim, kolejnych uczestników …

12 hypothesis-testing chi-squared p-value multiple-comparisons sequential-analysis

1

Dokładny test Fishera i rozkład hipergeometryczny

Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

Co robisz, jeśli twoje stopnie swobody przekraczają koniec twoich stołów?

Stopnie swobody w mojej tabeli F nie są wystarczająco wysokie dla mojej dużej próbki. Na przykład, jeśli mam F z 5 i 6744 stopniami swobody, jak znaleźć 5% wartość krytyczną dla ANOVA? Co jeśli robiłbym test chi-kwadrat z dużymi stopniami swobody? [Takie pytanie zostało zadane jakiś czas temu, ale OP …

11 chi-squared degrees-of-freedom f-distribution tables

1

Do jakiego rodzaju wyboru funkcji można zastosować test Chi kwadrat?

Tutaj pytam o to, co inni często robią, aby użyć testu chi-kwadrat do wyboru funkcji w wyniku uczenia się nadzorowanego. Jeśli dobrze rozumiem, czy testują niezależność między każdą cechą a wynikiem i porównują wartości p między testami dla każdej cechy? W http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Test chi-kwadrat Pearsona jest testem statystycznym stosowanym …

11 hypothesis-testing chi-squared feature-selection independence scikit-learn

1

Jak interpretować kolory resztkowe na mozaice?

Jest to mozaika wykres tabeli awaryjnego zestawu danych HairEyeColoropisanego tutaj . Jak interpretować kolory reprezentujące reszty? Jaka jest różnica między wysoką a dodatnią resztą Pearsona (pokazaną na niebiesko) w porównaniu z niską i ujemną resztą na czerwono?

11 data-visualization chi-squared residuals contingency-tables

1

Przetestuj model GLM przy użyciu wartości zerowej i odchyleń modelu

Zbudowałem model GLM w R i przetestowałem go przy użyciu grupy testowej i szkoleniowej, więc jestem pewien, że działa dobrze. Wyniki z R są następujące: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.781e+00 1.677e-02 -165.789 < 2e-16 *** Coeff_A 1.663e-05 5.438e-06 3.059 0.00222 ** log(Coeff_B) 8.925e-01 1.023e-02 87.245 < …

11 r generalized-linear-model chi-squared

2

Subtelność wartości p: większa-równa vs. większa

Gdy czytam książkę Wassermanna Wszystkie statystyki, dostrzegam subtelną subtelność w definicji wartości p, której nie mogę zrozumieć. Nieformalnie Wassermann określa wartość p jako [..] prawdopodobieństwo (poniżej ) zaobserwowania wartości statystyki testowej takiej samej lub bardziej ekstremalnej niż rzeczywista obserwowana.H0H0H_0 Podkreślenie dodane. To samo bardziej formalnie (Twierdzenie 10.12): Załóżmy, że test …

11 hypothesis-testing chi-squared p-value

1

Rozkład stosunku zależnych zmiennych losowych chi-kwadrat

Załóżmy, że gdzie są niezależne.X=X1+X2+⋯+XnX=X1+X2+⋯+Xn X = X_1 + X_2+\cdots+ X_n Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim N(0,\sigma^2) Moje pytanie brzmi: co robi dystrybucja Z=X2X21+X22+⋯+X2nZ=X2X12+X22+⋯+Xn2 Z = \frac{X^2}{X_1^2 + X_2^2 + \cdots + X_n^2} podążać? Wiem stąd, że stosunek dwóch losowych zmiennych chi-kwadrat wyrażonych jako zgodny z rozkładem Beta. Myślę, że ta zakłada niezależność …

11 normal-distribution chi-squared beta-distribution ratio

2

Kolejność statystyk (np. Minimum) nieskończonej kolekcji zmiennych chi-kwadrat?

To jest mój pierwszy raz tutaj, więc proszę dać mi znać, czy mogę wyjaśnić moje pytanie w jakikolwiek sposób (w tym formatowanie, tagi itp.). (Mam nadzieję, że mogę później edytować!) Próbowałem znaleźć referencje i próbowałem rozwiązać siebie za pomocą indukcji, ale nie udało mi się obu. Próbuję uprościć dystrybucję, która …

11 distributions chi-squared exponential order-statistics minimum

2

Dlaczego test McNemara wykorzystuje chi-kwadrat, a nie rozkład normalny?

Właśnie zauważyłem, jak nieprecyzyjny test McNemara wykorzystuje asymptotyczny rozkład chi-kwadrat. Ale skoro dokładny test (dla tabeli dwóch przypadków) opiera się na rozkładzie dwumianowym, dlaczego nie jest tak często sugerować normalne przybliżenie do rozkładu dwumianowego? Dzięki.

11 distributions binomial chi-squared normal-distribution

4

Wiele testów chi-kwadrat

Mam sklasyfikowane dane w tabeli 2 x 2 x 6. Nazwijmy wymiary response, Ai B. Dopasowuję regresję logistyczną do danych za pomocą modelu response ~ A * B. Analiza dewiacji tego modelu wskazuje, że oba terminy i ich interakcja są znaczące. Jednak patrząc na proporcje danych, wygląda na to, że …

11 categorical-data logistic multiple-comparisons chi-squared

Pytania otagowane jako chi-squared