Metodologia bootstrap. Po co ponownie próbkować „z zastępstwem” zamiast losowego podpróbkowania?


11

Metoda bootstrap bardzo się rozpowszechniła w ostatnich latach, ja też jej często używam, zwłaszcza że rozumowanie jest dość intuicyjne.

Ale tego nie rozumiem. Dlaczego Efron postanowił wykonać ponowne próbkowanie z zamianą zamiast zwykłego podpróbkowania przez losowe włączanie lub wyłączanie pojedynczych obserwacji?

Myślę, że losowe podpróbkowanie ma jedną bardzo dobrą jakość, która idealnie reprezentuje rzeczywistą sytuację życiową, w której obserwacje, które obserwujemy w naszym badaniu, są podzbiorem hipotetycznej populacji. Nie widzę korzyści z posiadania zwielokrotnionych obserwacji podczas ponownego próbkowania. W rzeczywistym kontekście żadna obserwacja nie jest podobna do innej, szczególnie w złożonych sytuacjach wielowymiarowych.


3
ponowne próbkowanie z ponownym próbkowaniem jest wykonywane, ponieważ jest to właściwe, biorąc pod uwagę model. Model oparty na bootstrapie polega na wykorzystaniu nieparametrycznego maksymalnego prawdopodobieństwa do oszacowania funkcji rozkładu skumulowanego, a następnie próbkowaniu niezależnych obserwacji z oszacowanej funkcji rozkładu skumulowanego. Pomyśl o tym --- Algorytmicznie, który uzyskuje się przez pobieranie próbek przez zastąpienie oryginalnej próbki.
kjetil b halvorsen

Odpowiedzi:


10

Jednym ze sposobów zrozumienia tego wyboru jest wyobrażenie sobie, że próbka jest najlepszą reprezentacją populacji podstawowej. Być może nie masz już całej populacji do pobierania próbek, ale masz tę konkretną reprezentację populacji. Naprawdę losowe ponowne próbkowanie z tej reprezentacji populacji oznacza, że ​​musisz próbkować z wymianą, w przeciwnym razie późniejsze próbkowanie będzie zależeć od wyników początkowego próbkowania. Obecność powtarzającego się przypadku w konkretnej próbce ładowania początkowego reprezentuje członków podstawowej populacji, którzy mają cechy zbliżone do cech tego konkretnego powtarzanego przypadku. Jak sugerujesz, można również zastosować podejście typu „zostaw jeden-jeden” lub „zostaw kilka-jeden”, ale jest to metoda krzyżowej weryfikacji zamiast ładowania początkowego.

Myślę, że właściwie to po prostu umieszcza w innych słowach komentarz z @kjetil_b_halvorsen


Rozumiem sens. Indywidualne obserwacje w próbce bootstrap niezależne od siebie. W literaturze istnieją metody oparte na podpróbkowaniu, patrz Politis, Romano, Wolf. Użyj stałego podzestawu m n, wybranego bez zamiany. Jak unikają pułapki, o której mówiłeś wcześniej? W ich przypadku ponownie nie rozumiem, dlaczego używają podpróbki o stałym rozmiarze zamiast podpróbki losowej.
Bakaburg

2
Metody podpróbkowania próbują osiągnąć coś innego niż bootstrap. Metody te mają na celu wybranie losowych podzbiorów z próbki danych, zamiast próbować emulować nową próbkę losową z populacji bazowej . To nie jest tak, że jedno lub drugie jest złe; są to różne podejścia, które mają szczególne mocne i słabe strony.
EdM

Więc może powinienem zadać nowe pytanie dotyczące różnicy między dwiema metodami statystyki wnioskowania. dzięki!
Bakaburg

@ Bakaburg zapoznaj się z tym pytaniem, aby uzyskać doskonałe wprowadzenie do literatury na temat ładowania początkowego kontra walidacja krzyżowa (który jest szczególnym rodzajem podpróbkowania).
EdM

@ Bakaburg Metoda ładowania początkowego symuluje powtarzające się niezależne losowanie losowych próbek o wielkości n (nie jest to podzbiór mniejszy niż n) z większej populacji. Oznacza to, że możliwe jest, że losowa próbka zawierałaby dużą liczbę skrajnie małych lub dużych wartości z populacji macierzystej, które często są niedostatecznie reprezentowane w naszej oryginalnej próbce. Jak zauważył EdM, ponowne próbkowanie w / zastąpienie pozwala obserwacji pojedynczej próbki „reprezentować” wielokrotne obserwacje w populacji o podobnych wartościach - jest to sposób na uzyskanie płynnego przybliżenia rozkładu populacji.
RobertF
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.