Statystyki i duże zbiory danych bootstrap

1

Prawidłowa technika ładowania dla klastrowanych danych?

Mam pytanie dotyczące właściwej techniki ładowania początkowego w przypadku danych, w których występuje silne grupowanie. Zadanie polegało na ocenie modelu prognostycznego z wieloma zmiennymi efektami mieszanymi na danych dotyczących roszczeń ubezpieczeniowych poprzez ocenę obecnego modelu bazowego na nowszych danych dotyczących roszczeń, aby określić, jak dobrze model przewiduje, które odcinki opieki …

16 bootstrap random-effects-model mixed-model

1

Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?

Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

Czy można zastosować bootstrap w celu zastąpienia testów nieparametrycznych?

Jestem dość nowy w statystyce. Koncepcja ładowania początkowego była dla mnie myląca. Wiem, że do korzystania z niektórych testów, takich jak test t, wymagana jest normalność rozkładu próbkowania. Czy w przypadkach, gdy dane nie są normalnie dystrybuowane, poprzez żądanie „ładowania początkowego” w t-testach w SPSS obejdzie to problem nienormalności? Jeśli …

15 nonparametric bootstrap

2

Jaka jest procedura „walidacji bootstrap” (inaczej „ponownej próbkowania cross-validation”)?

„Walidacja bootstrap” / „ponowna próbkowanie cross-validation” jest dla mnie nowa, ale została omówiona w odpowiedzi na to pytanie . Rozumiem, że dotyczy to 2 rodzajów danych: danych rzeczywistych i danych symulowanych, w których dany zestaw danych symulowanych jest generowany z danych rzeczywistych przez ponowne próbkowanie z wymianą, aż dane symulowane …

15 cross-validation bootstrap validation resampling

2

Dlaczego funkcja bootstrap scikit-learn ponownie próbkuje zestaw testowy?

Kiedy używałem bootstrapowania do oceny modelu, zawsze myślałem, że próbki z torebki były bezpośrednio używane jako zestaw testowy. Jednak wydaje się, że nie jest tak w przypadku przestarzałego podejścia scikit-learnBootstrap , które wydaje się budować zestaw testowy na podstawie rysowania z zastępowaniem z podzbioru danych poza torbą. Jakie jest uzasadnienie …

15 cross-validation bootstrap random-forest scikit-learn bagging

2

Najlepsze sugerowane podręczniki na temat ponownego próbkowania Bootstrap?

Chciałem tylko zapytać, które według ciebie są najlepsze dostępne książki na temat bootstrapu. Rozumiem przez to niekoniecznie tylko ten napisany przez jego twórców. Czy możesz wskazać, który podręcznik jest dla Ciebie najlepszy dla bootstrapu, który spełnia następujące kryteria? Podstawa filozoficzna / epistemologiczna techniki, która wymienia dziedzinę stosowalności, mocne i słabe …

14 sampling model-selection bootstrap references resampling

3

Bootstrap: problem nadmiernego dopasowania

Załóżmy, że wykonuje się tak zwany nieparametryczny bootstrap, pobierając próbki BBB o wielkości nnn każda z oryginalnych nnn obserwacji z zastąpieniem. Uważam, że ta procedura jest równoważna z oszacowaniem skumulowanej funkcji rozkładu przez empiryczny plik cdf: http://en.wikipedia.org/wiki/Empirical_distribution_function a następnie uzyskanie próbek bootstrap poprzez symulację obserwacji z szacowanych czasów cdf z …

14 bootstrap sample-size sample small-sample finite-population

3

Pytania dotyczące parametrycznego i nieparametrycznego bootstrapu

Czytam rozdział o częstych statystykach z książki Kevina Murphy'ego „ Machine Learning - A Probabilistic Perspective ”. Sekcja na temat bootstrap brzmi: Bootstrap to prosta technika Monte Carlo do przybliżenia rozkładu próbkowania. Jest to szczególnie przydatne w przypadkach, gdy estymator jest złożoną funkcją prawdziwych parametrów. Pomysł jest prosty. Gdybyśmy znali …

14 bootstrap frequentist

2

Instrukcje: przewidywanie interwałów regresji liniowej za pomocą ładowania początkowego

Mam problem ze zrozumieniem, jak używać ładowania początkowego do obliczania przedziałów predykcji dla modelu regresji liniowej. Czy ktoś może nakreślić procedurę krok po kroku? Szukałem przez Google, ale nic tak naprawdę nie ma dla mnie sensu. Rozumiem, jak używać ładowania początkowego do obliczania przedziałów ufności dla parametrów modelu.

14 regression bootstrap prediction-interval

1

Czy ta metoda ponownego próbkowania szeregów czasowych jest znana w literaturze? Czy to ma imię?

Ostatnio szukałem sposobów na ponowne próbkowanie szeregów czasowych Zachowaj w przybliżeniu autokorelację długich procesów pamięci. Zachowaj domenę obserwacji (na przykład seria liczb całkowitych po ponownym próbkowaniu jest nadal serią liczb całkowitych). W razie potrzeby może wpływać tylko na niektóre skale. Wymyśliłem następujący schemat permutacji dla szeregów czasowych o długości :2N2N2^N …

14 time-series bootstrap resampling permutation-test

4

Interwały prognoz dla algorytmów uczenia maszynowego

Chcę wiedzieć, czy opisany poniżej proces jest prawidłowy / akceptowalny i czy dostępne jest jakiekolwiek uzasadnienie. Pomysł: nadzorowane algorytmy uczenia się nie zakładają podstawowych struktur / dystrybucji danych. Na koniec dnia przedstawiają szacunkowe dane wyjściowe. Mam nadzieję, że jakoś oszacuję niepewność tych szacunków. Teraz proces budowania modelu ML jest z …

14 machine-learning confidence-interval bootstrap supervised-learning gbm

1

Dlaczego warto korzystać z parametrycznego ładowania początkowego?

Obecnie próbuję omówić niektóre kwestie dotyczące parametrycznego ładowania początkowego. Większość rzeczy jest prawdopodobnie trywialna, ale nadal myślę, że coś przeoczyłem. Załóżmy, że chcę uzyskać przedziały ufności dla danych przy użyciu parametrycznej procedury ładowania początkowego. Mam więc tę próbkę i zakładam, że jest normalnie dystrybuowana. Oszacowałbym wtedy wariancję i znaczyłbym i …

14 nonparametric bootstrap simulation monte-carlo parametric

1

Dlaczego błąd „szacunkowa korekta” a „NA” jest generowany z pakietu rozruchowego R podczas obliczania przedziałów ufności przy użyciu metody bca?

Mam wektor liczb, które przesłałem tutaj (... / code / MyData.Rdata) przy użyciu dput. Chciałbym dostać bca ci, więc napisałem ten kod: my.mean <- function(dat, idx){ return (mean(dat[idx], na.rm = TRUE)) } boot.out<-boot(data=my.data, statistic = my.mean, R=1000) Ale gdy uruchomię następujące, otrzymuję to: > boot.ci(boot.out) Error in bca.ci(boot.out, conf, index[1L], …

14 r bootstrap

3

Dlaczego ładowanie jest przydatne?

Jeśli wszystko, co robisz, to ponowne próbkowanie z rozkładu empirycznego, dlaczego nie po prostu przestudiować rozkład empiryczny? Na przykład zamiast badać zmienność poprzez powtarzanie prób, dlaczego nie po prostu skwantyfikować zmienność z rozkładu empirycznego?

13 machine-learning mathematical-statistics sampling bootstrap resampling

1

Czy standardowe błędy ładowania i przedziały ufności są odpowiednie w regresjach, w których naruszone jest założenie homoscedastyczności?

Jeśli w standardowych regresjach OLS zostaną naruszone dwa założenia (normalny rozkład błędów, homoscedastyczność), to czy standardowe błędy początkowe i przedziały ufności są odpowiednią alternatywą dla uzyskania znaczących wyników w odniesieniu do znaczenia współczynników regresora? Czy testy istotności ze standardowymi błędami ładowania i przedziałami ufności nadal „działają” z heteroscedastycznością? Jeśli tak, …

13 regression bootstrap least-squares heteroscedasticity

Pytania otagowane jako bootstrap