Statystyki i duże zbiory danych bootstrap

3

Test ładowania początkowego a testowanie permutacji

Istnieje kilka popularnych technik ponownego próbkowania, które są często stosowane w praktyce, takich jak ładowanie, test permutacji, scyzoryk itp. Istnieje wiele artykułów i książek na temat tych technik, na przykład Philip I Good (2010) Permutation, Parametric i Bootstrap Tests hipotez Moje pytanie brzmi, która technika ponownego próbkowania zyskała większą popularność …

37 hypothesis-testing nonparametric bootstrap permutation-test

5

Czy potrafisz się dopasować, trenując algorytmy uczenia maszynowego za pomocą CV / Bootstrap?

To pytanie może być zbyt otwarte, aby uzyskać ostateczną odpowiedź, ale mam nadzieję, że nie. Algorytmy uczenia maszynowego, takie jak SVM, GBM, Random Forest itp., Generalnie mają pewne wolne parametry, które poza pewną wskazówką praktyczną, muszą być dostosowane do każdego zestawu danych. Zazwyczaj odbywa się to za pomocą pewnego rodzaju …

34 machine-learning cross-validation bootstrap optimization resampling

3

W jaki sposób losowe lasy nie są wrażliwe na wartości odstające?

Czytałem w kilku źródłach, w tym w tym , że Lasy Losowe nie są wrażliwe na wartości odstające (na przykład tak, jak regresja logistyczna i inne metody ML). Jednak dwie intuicje mówią mi inaczej: Ilekroć budowane jest drzewo decyzyjne, wszystkie punkty muszą być klasyfikowane. Oznacza to, że nawet wartości odstające …

33 random-forest bootstrap outliers cart

2

Określanie wielkości próbki niezbędnej dla metody ładowania początkowego / proponowanej metody

Wiem, że jest to dość gorący temat, na który nikt tak naprawdę nie jest w stanie udzielić prostej odpowiedzi. Niemniej jednak zastanawiam się, czy poniższe podejście nie byłoby przydatne. Metoda ładowania początkowego jest użyteczna tylko wtedy, gdy twoja próbka odpowiada mniej więcej (dokładnie odczytać) tej samej dystrybucji, co pierwotna populacja. …

33 bootstrap sample-size methodology

2

Jak przeprowadzasz ładowanie z danymi szeregów czasowych?

Ostatnio dowiedziałem się o stosowaniu technik ładowania początkowego do obliczania standardowych błędów i przedziałów ufności dla estymatorów. Nauczyłem się, że jeśli dane są IID, możesz traktować dane przykładowe jako populację i wykonywać próbkowanie z wymianą, co pozwoli ci uzyskać wiele symulacji statystyki testowej. W przypadku szeregów czasowych wyraźnie nie możesz …

33 time-series bootstrap

4

Czy to prawda, że nigdy nie należy używać percentylowego bootstrapu?

W notatkach MIT OpenCourseWare z 18.05 Wprowadzenie do prawdopodobieństwa i statystyki, wiosna 2014 (obecnie dostępnych tutaj ), stwierdza: Metoda percentyla bootstrap jest atrakcyjna ze względu na swoją prostotę. Zależy to jednak od rozkładu boot oparciu o konkretną próbkę będącą dobrym przybliżeniem do prawdziwego rozkładu . Rice mówi o metodzie centylowej: …

31 confidence-interval bootstrap

4

Kiedy szacunek obciążenia początkowego jest prawidłowy?

Często twierdzi się, że ładowanie początkowe może zapewnić oszacowanie błędu systematycznego w estymatorze. Jeśli jest szacunkiem dla niektórych statystyk, a są replikami ładowania początkowego (z ), to szacunek obciążenia początkowego szacunku wynosi co wydaje się niezwykle proste i potężne, do tego stopnia, że niepokoi. ~ T II∈{1,⋯,N}biyt≈1t^t^\hat tt~it~i\tilde t_ii∈{1,⋯,N}i∈{1,⋯,N}i\in\{1,\cdots,N\}biast≈1N∑it~i−t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t …

31 bootstrap bias

2

Czy istnieje wiarygodny nieparametryczny przedział ufności dla średniej przekrzywionego rozkładu?

Bardzo wypaczone rozkłady, takie jak log-normal, nie dają dokładnych przedziałów ufności ładowania. Oto przykład pokazujący, że lewy i prawy obszar ogona są dalekie od idealnego 0,025 bez względu na to, jaką metodę ładowania początkowego wypróbujesz w R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- …

30 confidence-interval nonparametric mean bootstrap median

3

Zalecenie dla recenzowanego czasopisma open source?

Mam manuskrypt dotyczący metody bootstrap do testowania hipotez jednego środka i chciałbym przesłać ją do publikacji, ale mam dylemat moralny. Zapisałem się na protest przeciwko Elsevierowi z powodu ich nieetycznych praktyk biznesowych, a przeczytanie całej sprawy naprawdę zmusiło mnie do zakwestionowania etyki innych czasopism naukowych o charakterze zarobkowym. Dlatego chciałbym …

30 hypothesis-testing bootstrap journals

3

Dlaczego nie zgłosić średniej dystrybucji bootstrap?

Kiedy jeden ładuje parametr, aby uzyskać standardowy błąd, otrzymujemy rozkład parametru. Dlaczego nie wykorzystamy średniej tego rozkładu jako wyniku lub oszacowania parametru, który próbujemy uzyskać? Czy rozkład nie powinien być zbliżony do rzeczywistego? Dlatego otrzymalibyśmy dobre oszacowanie „prawdziwej” wartości? Podajemy jednak oryginalny parametr uzyskany z naszej próbki. Dlaczego? Dzięki

30 distributions bootstrap standard-error expected-value

2

Jak dobrze ładowanie początkowe przybliża rozkład próbkowania estymatora?

Studiując ostatnio bootstrap, wpadłem na pytanie koncepcyjne, które wciąż mnie zastanawia: Masz populację i chcesz poznać atrybut populacji, tj. , gdzie używam do reprezentowania populacji. Ta może być średnia populacja np. Zwykle nie można uzyskać wszystkich danych z populacji. Narysuj więc próbkę o rozmiarze z populacji. Załóżmy, że masz próbkę …

29 bootstrap simulation resampling

5

Dlaczego mój interwał ładowania jest tak zły?

Chciałem zrobić demonstrację klasową, w której porównuję przedział t z przedziałem ładowania początkowego i obliczę prawdopodobieństwo pokrycia obu. Chciałem, aby dane pochodziły z przekrzywionej dystrybucji, więc postanowiłem wygenerować dane jako exp(rnorm(10, 0, 2)) + 1próbkę o wielkości 10 z przesuniętego logarytmu normalnego. Napisałem skrypt, aby narysować 1000 próbek i dla …

29 bootstrap diagnostic

1

Interwał przewidywania ładowania początkowego

Czy jest dostępna technika ładowania początkowego do obliczania przedziałów predykcji dla prognoz punktowych uzyskanych np. Z regresji liniowej lub innej metody regresji (k-najbliższy sąsiad, drzewa regresji itp.)? Jakoś wydaje mi się, że czasami proponowanym sposobem, aby po prostu wyrzucić prognozę punktową (patrz np. Przedziały predykcji dla regresji kNN ), nie …

29 bootstrap prediction-interval

3

Obliczanie wartości p za pomocą bootstrap z R

Korzystam z pakietu „boot”, aby obliczyć przybliżoną 2-stronną wartość p ładowania początkowego, ale wynik jest zbyt daleko od wartości p użycia t.test. Nie mogę zrozumieć, co zrobiłem źle w moim kodzie R. Czy ktoś może mi dać na to wskazówkę time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) …

28 r hypothesis-testing p-value bootstrap permutation-test

1

Czy stopnie swobody mogą być liczbą niecałkowitą?

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

Pytania otagowane jako bootstrap