Statystyki i duże zbiory danych goodness-of-fit

1

Czy sensowne jest wykonanie jednostronnego testu Kołmogorowa-Smirnowa?

Czy sensowne i możliwe jest wykonanie jednostronnego testu KS? Jaka byłaby hipoteza zerowa takiego testu? Czy test KS jest z natury testem dwustronnym? Korzystałbym z odpowiedzi, która pomogła mi zrozumieć rozkład D (pracuję nad dokumentem Massey'a z 1951 roku i uważam, że opis jest trudny, na przykład i supremum i …

15 hypothesis-testing goodness-of-fit kolmogorov-smirnov

1

Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?

Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

Jak sprawdzić, czy dystrybucja jest zgodna z prawem mocy?

Mam dane o tym, ilu użytkowników publikuje ile pytań. Na przykład, [UserCount, QuestionCount] [2, 100] [9, 10] [3, 80] ... ... Oznacza to, że 2 użytkowników opublikowało 100 pytań, 9 użytkowników opublikowało 10 pytań i tak dalej. Jak więc ustalić, czy UserCount, QuestionCountrozkład jest zgodny z prawem mocy? Znalazłem pakiet …

13 r hypothesis-testing goodness-of-fit power-law

1

Ocena modelu regresji logistycznej

Pracowałem nad modelem logistycznym i mam trudności z oceną wyników. Mój model to dwumianowy logit. Moje zmienne objaśniające to: zmienna kategorialna z 15 poziomami, zmienna dychotomiczna i 2 zmienne ciągłe. Mój N jest duży> 8000. Staram się modelować decyzję firm o inwestowaniu. Zmienna zależna to inwestycja (tak / nie), 15 …

13 r logistic goodness-of-fit roc

2

Jak sprawdzić, czy próbka danych pasuje do rodziny dystrybucji gamma?

Mam próbkę danych, która została wygenerowana z ciągłej zmiennej losowej X. I z histogramu, który rysuję za pomocą R, myślę, że może rozkład X jest zgodny z pewnym rozkładem gamma. Ale nie znam dokładnych parametrów tego rozkładu gamma. Moje pytanie brzmi: jak sprawdzić, czy rozkład X należy do rodziny rozkładów …

13 distributions hypothesis-testing goodness-of-fit gamma-distribution

2

Ocena modeli regresji logistycznej

To pytanie wynika z mojego faktycznego zamieszania dotyczącego tego, jak zdecydować, czy model logistyczny jest wystarczająco dobry. Mam modele, które wykorzystują stan par projekt indywidualny dwa lata po ich uformowaniu jako zmienna zależna. Wynik jest udany (1) lub nie (0). Mam zmienne niezależne mierzone w czasie tworzenia par. Moim celem …

13 r logistic goodness-of-fit residuals

5

Jak udowodnić, że ranking Elo lub ranking strony mają znaczenie dla mojego zestawu?

Mam zestaw graczy. Grają przeciwko sobie (parami). Pary graczy są wybierane losowo. W każdej grze jeden gracz wygrywa, a drugi przegrywa. Gracze grają ze sobą ograniczoną liczbę gier (niektórzy grają w więcej gier, inni mniej). Mam więc dane (kto wygrywa z kim i ile razy). Teraz zakładam, że każdy gracz …

13 goodness-of-fit ranking rating

1

LARS vs zejście współrzędnych dla lasso

Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Jak odczytać dobroć dopasowania na nls R?

Próbuję zinterpretować dane wyjściowe nls (). Przeczytałem ten post, ale nadal nie rozumiem, jak wybrać najlepsze dopasowanie. Z moich ataków mam dwa wyjścia: > summary(m) Formula: y ~ I(a * x^b) Parameters: Estimate Std. Error t value Pr(>|t|) a 479.92903 62.96371 7.622 0.000618 *** b 0.27553 0.04534 6.077 0.001744 ** …

12 r least-squares nonlinear-regression goodness-of-fit

1

Oczekiwana wartość , współczynnik determinacji, pod hipotezą zerową

Jestem ciekawy stwierdzenia dokonanego na dole pierwszej strony tego tekstu dotyczącego korektyR2adjustedRadjusted2R^2_\mathrm{adjusted} R2adjusted=1−(1−R2)(n−1n−m−1).Radjusted2=1−(1−R2)(n−1n−m−1).R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right). Tekst stanowi: Logika korekty jest następująca: w zwykłej regresji wielokrotnej predyktor losowy wyjaśnia średnio proporcję 1/(n–1)1/(n–1)1/(n – 1) zmiany odpowiedzi, tak że mmm losowych predyktorów wyjaśnia razem, średnio m/(n–1)m/(n–1)m/(n – 1) wariantu odpowiedzi; innymi słowy, oczekiwana …

12 regression expected-value goodness-of-fit r-squared

1

Regresja logistyczna z splajnami regresji w R.

Opracowuję model regresji logistycznej oparty na danych retrospektywnych z krajowej bazy danych dotyczących urazów głowy w Wielkiej Brytanii. Kluczowym rezultatem jest 30-dniowa śmiertelność (oznaczona jako miara „przetrwania”). Inne miary z opublikowanymi dowodami znaczącego wpływu na wyniki poprzednich badań obejmują: Year - Year of procedure = 1994-2013 Age - Age of …

12 r logistic generalized-linear-model goodness-of-fit regression-strategies

4

Dobroć dopasowania dla bardzo dużych próbek

Codziennie zbieram bardzo duże próbki (> 1 000 000) danych kategorycznych i chcę, aby dane wyglądały „znacząco” różnie między poszczególnymi dniami w celu wykrycia błędów w gromadzeniu danych. Myślałem, że użycie testu dobrego dopasowania (w szczególności testu G) byłoby dobrym dopasowaniem (gra słów). Oczekiwany rozkład wynika z rozkładu z poprzedniego …

12 goodness-of-fit large-data

3

Czy mój model jest dobry na podstawie wartości metryki diagnostycznej ( / AUC / dokładność / RMSE itp.)?

Dopasowałem swój model i staram się zrozumieć, czy jest on dobry. Obliczyłem zalecane miary, aby je ocenić ( / AUC / dokładność / błąd prognozowania itp.), Ale nie wiem, jak je interpretować. Krótko mówiąc, jak stwierdzić, czy mój model jest dobry na podstawie danych? Czy 0,6 (na przykład) wystarcza, abym …

12 goodness-of-fit r-squared accuracy auc diagnostic

2

Test Kołmogorowa – Smirnowa: wartość p i statystyki testu ks zmniejszają się wraz ze wzrostem wielkości próby

Dlaczego wartości p i statystyki testu ks zmniejszają się wraz ze wzrostem wielkości próby? Weź ten kod Python jako przykład: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n) print ks_2samp(x, y) …

12 python p-value goodness-of-fit intuition scipy

1

Miara „dewiacji” dla zerowo napompowanego Poissona czy napompowanego zerowo dwumianu?

Skalowane odchylenie, zdefiniowane jako D = 2 * (logarytmiczne prawdopodobieństwo modelu nasyconego minus logarytmiczne prawdopodobieństwo modelu dopasowanego), jest często stosowane jako miara dobroci dopasowania w modelach GLM. Wyjaśnione procentowe odchylenie, zdefiniowane jako [D (model zerowy) - D (model dopasowany)] / D (model zerowy), jest również czasami używane jako analog GLM …

11 goodness-of-fit zero-inflation deviance

Pytania otagowane jako goodness-of-fit