Gdziekolwiek ładowanie - czy ktoś może podać proste wyjaśnienie na początek?


9

Mimo kilku prób przeczytania o ładowaniu, zawsze uderzam w ścianę z cegieł. Zastanawiam się, czy ktoś może podać dość nietechniczną definicję ładowania początkowego?

Wiem, że to nie jest możliwe na tym forum, aby zapewnić wystarczająco szczegółowo, aby umożliwić mi w pełni zrozumieć, ale delikatne pchnięcie w dobrym kierunku, z głównym celem i mechanizm ładowania początkowego byłaby znacznie ceniona! Dzięki.

Odpowiedzi:


8

Wpis w Wikipedii dotyczący ładowania początkowego jest w rzeczywistości bardzo dobry:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

Najczęstszym powodem zastosowania ładowania początkowego jest nieznana forma podstawowej dystrybucji, z której pobierana jest próbka. Tradycyjnie statystycy zakładają rozkład normalny (z bardzo dobrych powodów związanych z centralnym twierdzeniem o granicy), ale statystyki (takie jak odchylenie standardowe, przedziały ufności, obliczenia mocy itp.) Oszacowane za pomocą teorii rozkładu normalnego są ściśle obowiązujące tylko wtedy, gdy podstawowy rozkład populacji jest normalna.

Poprzez wielokrotne ponowne próbkowanie samej próbki, ładowanie początkowe umożliwia oszacowania, które są niezależne od dystrybucji. Tradycyjnie każde „ponowne próbkowanie” oryginalnej próbki losowo wybiera tę samą liczbę obserwacji, co w oryginalnej próbce. Są one jednak wybierane z zamiennikiem. Jeśli próbka ma N obserwacji, każda próbka ponownego ładowania początkowego będzie miała N obserwacji, z wieloma powtórzeniami oryginalnej próbki i wieloma wykluczonymi.

Parametr będący przedmiotem zainteresowania (np. Iloraz szans itp.) Można następnie oszacować na podstawie każdej próbki startowej. Powtarzając bootstrap, powiedzmy 1000 razy, pozwala oszacować „medianę” i 95% przedział ufności w statystyce (np. Iloraz szans), wybierając 2,5, 50 i 97,5 percentyl.


8

Amerykański naukowiec niedawno napisał fajny artykuł Cosmy Shalizi na temat paska startowego, który jest dość łatwy do czytania i daje podstawy do zrozumienia tej koncepcji.


7

Bardzo ogólnie: intuicja, a także pochodzenie nazwy („ciągnięcie się za bootstrapy”), wywodzą się z obserwacji, że używając właściwości próbki do wyciągania wniosków na temat populacji („odwrotny” problem statystyczny wnioskowanie), oczekujemy błędu. Aby poznać naturę tego błędu, potraktuj samą próbkę jako populację samą w sobie i przestudiuj, jak działa procedura wnioskowania, gdy pobierzesz z niej próbki . Że jest „do przodu” problem: wiesz wszystko o swoim sample- qua-populacja i nie trzeba się zgadywać. Twoje badanie zasugeruje (a) stopień, w jakim twoja procedura wnioskowania może być stronnicza oraz (b) rozmiar i charakter błędu statystycznego twojej procedury. Wykorzystaj więc te informacje, aby skorygować swoje pierwotne prognozy. W wielu (ale zdecydowanie nie wszystkich) sytuacjach skorygowane odchylenie jest asymptotycznie znacznie niższe.

Jednym ze spostrzeżeń dostarczonych przez ten schematyczny opis jest to, że ładowanie początkowe nie wymaga symulacji ani powtarzania podpróbkowania: są to po prostu wszechobecne, możliwe do obliczenia sposoby badania dowolnego rodzaju procedury statystycznej, gdy znana jest populacja. Istnieje wiele oszacowań bootstrap, które można obliczyć matematycznie.

Ta odpowiedź zawdzięcza w dużej mierze książce Petera Halla „Rozruch początkowy i Edgeworth” (Springer 1992), a zwłaszcza opisowi „Głównej zasady” ładowania początkowego.


Podoba mi się to „oryginalne” podejście (wr. Inne wpisy). Mimo to zawsze trudno mi wytłumaczyć, dlaczego bootstrap działa w praktyce ...
chl

4

Wiki na temat ładowania początkowego zawiera następujący opis:

Bootstrapping pozwala zebrać wiele alternatywnych wersji pojedynczej statystyki, które zwykle byłyby obliczane z jednej próbki. Załóżmy na przykład, że interesuje nas wzrost ludzi na całym świecie. Ponieważ nie jesteśmy w stanie zmierzyć całej populacji, próbkujemy tylko niewielką jej część. Z tej próbki można uzyskać tylko jedną wartość statystyki, tj. Jedną średnią lub jedno odchylenie standardowe itp., A zatem nie widzimy, jak bardzo ta statystyka się zmienia. Korzystając z ładowania początkowego, losowo wyodrębniamy nową próbkę o wysokości n z N próbek danych, w których każdą osobę można wybrać najwyżej t razy. Robiąc to kilka razy, tworzymy dużą liczbę zestawów danych, które moglibyśmy zobaczyć, i obliczamy statystyki dla każdego z tych zestawów danych. W ten sposób otrzymujemy oszacowanie rozkładu statystyki.

Podam więcej szczegółów, jeśli możesz wyjaśnić, której części powyższego opisu nie rozumiesz.


4

Lubię myśleć o tym w następujący sposób: Jeśli uzyskasz losowy zestaw danych z populacji, przypuszczalnie ta próbka będzie miała cechy, które w przybliżeniu pasują do populacji źródłowej. Jeśli więc chcesz uzyskać przedziały ufności dla określonej cechy rozkładu, na przykład jego skośności, możesz potraktować próbkę jako pseudopopulację, z której można uzyskać wiele zestawów losowych pseudopróbek, obliczając wartość interesującej cechy w każdym. Założenie, że pierwotna próbka w przybliżeniu odpowiada populacji, oznacza również, że można uzyskać pseudopróbki, pobierając próbki z pseudopopulacji „z zamiennikiem” (np. Próbkuje się wartość, zapisuje ją, a następnie odkłada; w ten sposób każda wartość ma szansę na wielokrotne obserwowanie).


3

Bootstrap jest zasadniczo symulacją powtarzania eksperymentu; powiedzmy, że masz pudełko z kulkami i chcesz uzyskać średnią wielkość piłki - więc losujesz niektóre z nich, mierzysz i mierzysz. Teraz chcesz to powtórzyć, aby uzyskać rozkład, na przykład, aby uzyskać standardowe odchylenie - ale odkryłeś, że ktoś ukradł pudełko.
Teraz możesz użyć tego, co masz - tej jednej serii pomiarów. Chodzi o to, aby umieścić kulki w nowym pudełku i przeprowadzić symulację oryginalnego eksperymentu, rysując taką samą liczbę kulek z zamiennikiem - obie mają taką samą wielkość próbki i pewną zmienność. Teraz można to powtórzyć wiele razy, aby uzyskać szereg środków, które można w końcu wykorzystać do przybliżenia średniego rozkładu.


3

Jest to istota bootstrapowania: pobieranie różnych próbek danych, uzyskiwanie statystyki dla każdej próbki (np. Średniej, mediany, korelacji, współczynnika regresji itp.) Oraz używanie zmienności statystyki między próbkami, aby wskazać coś na temat standardowe błędy i przedziały ufności dla statystyki. - Bootstrapping i pakiet rozruchowy w R.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.