Statystyki i duże zbiory danych bootstrap

11

Wyjaśnianie laikom, dlaczego działa ładowanie początkowe

Niedawno użyłem ładowania początkowego, aby oszacować przedziały ufności dla projektu. Ktoś, kto niewiele wie o statystykach, ostatnio poprosił mnie o wyjaśnienie, dlaczego działa ładowanie początkowe, tj. Dlaczego ponowne próbkowanie tej samej próbki w kółko daje dobre wyniki. Zdałem sobie sprawę, że chociaż spędziłem dużo czasu na zrozumieniu, jak z niego …

326 bootstrap communication

4

Jaka jest reguła .632+ podczas ładowania?

Tutaj @gung odnosi się do reguły .632+. Szybkie wyszukiwanie w Google nie daje łatwej do zrozumienia odpowiedzi na pytanie, co oznacza ta reguła i do jakiego celu jest używana. Czy ktoś mógłby wyjaśnić zasadę .632+?

107 bootstrap

5

Różnice między walidacją krzyżową a ładowaniem początkowym w celu oszacowania błędu prognozowania

Chciałbym, aby twoje przemyślenia na temat różnic między weryfikacją krzyżową a ładowaniem początkowym oszacowały błąd prognozowania. Czy lepiej działa w przypadku małych zestawów danych lub dużych zestawów danych?

102 cross-validation predictive-models bootstrap

3

Jakie są przykłady, w których zawodzi „naiwny bootstrap”?

Załóżmy, że mam zestaw przykładowych danych z nieznanego lub złożonego rozkładu i chcę przeprowadzić wnioskowanie na temat statystyki TTT danych. Domyślną nachylenia jest tylko generować kilka próbek bootstrap z wymianą i obliczyć moje statystyki TTT na każdej próbce bootstrap stworzyć szacunkowy podział dla TTT . Jakie są przykłady, w których …

86 hypothesis-testing confidence-interval bootstrap

3

Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Metody ponownego próbkowania / symulacji: monte carlo, bootstrapping, jackknifing, cross-validation, testy randomizacji i testy permutacji

Próbuję zrozumieć różnicę między różnymi metodami ponownego próbkowania (symulacja Monte Carlo, ładowanie parametryczne, ładowanie nieparametryczne, podnoszenie, walidacja krzyżowa, testy randomizacji i testy permutacji) i ich implementacja w moim kontekście przy użyciu R. Powiedzmy, że mam następującą sytuację - chcę wykonać ANOVA ze zmienną Y ( Yvar) i zmienną X ( …

73 r bootstrap resampling jackknife permutation-test

4

Czy bootstrap może być postrzegany jako „lekarstwo” na małą próbkę?

To pytanie zostało wywołane przez coś, co przeczytałem w tym podręczniku do statystyki dla absolwentów, a także (niezależnie) usłyszałem podczas tej prezentacji na seminarium statystycznym. W obu przypadkach stwierdzenie było zgodne z „ponieważ wielkość próbki jest dość mała, postanowiliśmy przeprowadzić oszacowanie za pomocą bootstrap zamiast (lub wraz z) tą metodą …

71 bootstrap small-sample

4

Założenia dotyczące szacunkowych wartości początkowych niepewności

Doceniam przydatność bootstrapu w uzyskiwaniu oszacowań niepewności, ale jedna rzecz, która zawsze mnie martwiła, to to, że rozkład odpowiadający tym oszacowaniom jest rozkładem zdefiniowanym przez próbkę. Ogólnie rzecz biorąc, wydaje się złym pomysłem, aby wierzyć, że nasze częstotliwości próbkowania wyglądają dokładnie jak rozkład leżący u podstaw, więc dlaczego rozsądne / …

62 bootstrap uncertainty

1

Bootstrap kontra scyzoryk

Zarówno metody bootstrap, jak i jackknife mogą być użyte do oszacowania błędu systematycznego i błędu standardowego oszacowania, a mechanizmy obu metod ponownego próbkowania nie różnią się znacznie: próbkowanie z wymianą vs. pomijanie jednej obserwacji na raz. Jednak scyzoryk nie jest tak popularny jak bootstrap w badaniach i praktyce. Czy jest …

49 r confidence-interval bootstrap jackknife

3

Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie

Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

3

Czy można interpretować bootstrap z perspektywy Bayesa?

Ok, to pytanie podtrzymuje mnie w nocy. Czy procedurę ładowania początkowego można interpretować jako przybliżenie niektórych procedur bayesowskich (z wyjątkiem ładowania początkowego bayesowskiego)? Bardzo podoba mi się „interpretacja” statystyki bayesowskiej, którą uważam za całkiem spójną i łatwą do zrozumienia. Jednak mam również słabość do procedury ładowania początkowego, która jest tak …

43 bayesian bootstrap

5

Dlaczego średnio każda próbka bootstrap zawiera około dwie trzecie obserwacji?

Mam natknąć się na twierdzeniu, że każda próbka bootstrap (lub workach drzewa) będą zawierały średnio około 2/32/32/3 z obserwacjami. I zrozumieć, że prawdopodobieństwo nie wybiera się w jednym z nnn czerpie nnn próbek z wymianą jest (1−1/n)n(1−1/n)n(1- 1/n)^n , co przekłada się na około 1/31/31/3 przypadek nie zostanie wybrane. Co …

42 bootstrap

1

Jak określić znaczące główne komponenty za pomocą ładowania początkowego lub podejścia Monte Carlo?

Interesuje mnie określenie liczby znaczących wzorców pochodzących z analizy głównych składników (PCA) lub analizy empirycznej funkcji ortogonalnej (EOF). Jestem szczególnie zainteresowany zastosowaniem tej metody do danych klimatycznych. Pole danych jest macierzą MxN, gdzie M jest wymiarem czasowym (np. Dni), a N jest wymiarem przestrzennym (np. Lokalizacje lon / lat). Czytałem …

40 r pca bootstrap monte-carlo

6

Ogólna zasada dotycząca liczby próbek bootstrapu

Zastanawiam się, czy ktoś zna jakieś ogólne zasady dotyczące liczby próbek bootstrap, których należy użyć, na podstawie cech danych (liczba obserwacji itp.) I / lub uwzględnionych zmiennych?

40 bootstrap inference monte-carlo

3

Jakie jest znaczenie przedziału ufności wziętego z próbek ładowanych ponownie?

Patrzyłem na wiele pytań na tej stronie dotyczących ładowania początkowego i przedziałów ufności, ale nadal jestem zdezorientowany. Jednym z powodów mojego zamieszania jest prawdopodobnie to, że nie jestem wystarczająco zaawansowany w mojej wiedzy statystycznej, aby zrozumieć wiele odpowiedzi. Jestem mniej więcej w połowie kursu wprowadzającego, a mój poziom matematyki dotyczy …

38 confidence-interval bootstrap

Pytania otagowane jako bootstrap