Statystyki i duże zbiory danych chi-squared

2

Biorąc pod uwagę moc komputerów w dzisiejszych czasach, czy jest kiedykolwiek powód do przeprowadzenia testu chi-kwadrat zamiast dokładnego testu Fishera?

Biorąc pod uwagę, że oprogramowanie potrafi obecnie tak łatwo obliczać dokładne testy Fishera , czy istnieją jakieś okoliczności, w których teoretycznie lub praktycznie lepiej jest wykonać test chi-kwadrat niż dokładny test Fishera? Zalety dokładnego testu Fishera obejmują: skalowanie do tabel nieprzewidzianych większych niż 2x2 (tj. dowolna tabela r x c …

86 chi-squared contingency-tables fishers-exact

3

Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Jaki jest związek między testem chi-kwadrat a testem o równych proporcjach?

Załóżmy, że mam trzy populacje o czterech wzajemnie wykluczających się cechach. Pobieram losowe próbki z każdej populacji i tworzę tabelę krzyżową lub tabelę częstotliwości dla cech, które mierzę. Czy mam rację mówiąc, że: Gdybym chciał sprawdzić, czy istnieje jakikolwiek związek między populacjami a cechami (np. Czy jedna populacja ma wyższą …

52 chi-squared proportion contingency-tables z-test

7

Czy chi-kwadrat jest zawsze testem jednostronnym?

Opublikowany artykuł ( pdf ) zawiera te 2 zdania: Ponadto błędne zgłaszanie może być spowodowane niewłaściwymi przepisami lub brakiem wiedzy na temat testu statystycznego. Na przykład, całkowity df w ANOVA może być uznany za błąd df w raporcie testu , lub badacz może podzielić zgłoszoną wartość p lub przez dwa, …

48 hypothesis-testing chi-squared

3

Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie

Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

5

Ostrzeżenie w R - Przybliżenie chi-kwadrat może być niepoprawne

Mam dane pokazujące wyniki egzaminu wstępnego do strażaka. Testuję hipotezę, że wyniki egzaminów i pochodzenie etniczne nie są od siebie niezależne. Aby to przetestować, przeprowadziłem test chi-kwadrat Pearsona w R. Wyniki pokazują, czego się spodziewałem, ale dało ostrzeżenie, że „ In chisq.test(a) : Chi-squared approximation may be incorrect.” > a …

40 r categorical-data chi-squared small-sample error-message

2

Testy A / B: test Z vs test t vs chi kwadrat vs dokładny test Fishera

Próbuję zrozumieć rozumowanie, wybierając konkretne podejście testowe, gdy mamy do czynienia z prostym testem A / B - (tj. Dwie odmiany / grupy z odpowiedzią binarną (przekształconą lub nie). Jako przykład wykorzystam poniższe dane Version Visits Conversions A 2069 188 B 1826 220 Najlepsza odpowiedź tutaj jest świetna i mówi …

38 statistical-significance chi-squared p-value fishers-exact z-statistic

2

Dlaczego rozkład prawdopodobieństwa rozkłada się chi-kwadrat?

Dlaczego statystyki testu testu prawdopodobieństwa rozkładają chi-kwadrat? 2 ( LN L.a l t m o d e l - ln L.n u l l m o d e l ) ∼ χ2)refaa l t- dfan u L L2)(ln⁡ L.zalt moremil-ln⁡ L.null moremil)∼χrefazalt-refanull2)2(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm …

34 distributions chi-squared likelihood-ratio

4

Jaka jest różnica między testem McNemara a testem chi-kwadrat i skąd wiesz, kiedy go użyć?

Próbowałem czytać z różnych źródeł, ale nadal nie jestem pewien, który test byłby odpowiedni w moim przypadku. Są trzy różne pytania, które zadaję o mój zestaw danych: Osobniki są badane pod kątem infekcji od X w różnych momentach. Chcę wiedzieć, czy proporcje dodatniego dla X po są powiązane z proporcją …

30 r chi-squared mcnemar-test

6

Jak mogę sprawdzić uczciwość d20?

Jak mogę sprawdzić rzetelność dwudziestostronnej kostki (d20)? Oczywiście porównałbym rozkład wartości z rozkładem jednolitym. Niejasno pamiętam test Chi-kwadrat na studiach. Jak mogę to zastosować, aby sprawdzić, czy kość jest sprawiedliwa?

29 hypothesis-testing chi-squared goodness-of-fit uniform dice

1

Obliczanie powtarzalności efektów z modelu Lmer

Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Czy stopnie swobody mogą być liczbą niecałkowitą?

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

Czy jest to właściwa metoda testowania skutków sezonowych w danych dotyczących liczby samobójstw?

Mam 17 lat (1995–2011) danych dotyczących aktu zgonu związanych ze śmiercią samobójczą dla stanu w USA. Istnieje wiele mitologii na temat samobójstw i miesięcy / pór roku, wiele z nich jest sprzecznych, a literatura I ” Po przejrzeniu recenzji nie rozumiem zastosowanych metod ani nie ufam wynikom. Dlatego postanowiłem sprawdzić, …

24 r chi-squared arima count-data seasonality

3

Jak obliczyć wartość p parametrów dla modelu ARIMA w R?

Podczas przeprowadzania badań szeregów czasowych w R stwierdziłem, że arima zapewnia tylko wartości współczynników i ich standardowe błędy dopasowanego modelu. Jednak chcę również uzyskać wartość p współczynników. Nie znalazłem żadnej funkcji, która zapewnia znaczenie cefry. Więc chcę to obliczyć sam, ale nie znam stopnia swobody w rozkładzie współczynników t lub …

23 r time-series chi-squared arima parametric

4

Metoda Z-score Stouffera: co jeśli sumujemy zamiast ?

Przeprowadzam niezależnych testów statystycznych z tą samą hipotezą zerową i chciałbym połączyć wyniki w jedną wartość . Wydaje się, że istnieją dwie „akceptowane” metody: metoda Fishera i metoda Stouffera .NNNppp Moje pytanie dotyczy metody Stouffera. Dla każdego osobnego testu otrzymuję wynik Z- ziziz_i . Zgodnie z hipotezą zerową, a każdy …

22 hypothesis-testing chi-squared p-value multiple-comparisons combining-p-values

Pytania otagowane jako chi-squared