Rozmiar próbek bootstrap

Uczę się o ładowaniu jako sposobie szacowania wariancji przykładowej statystyki. Mam jedną podstawową wątpliwość.

Cytowanie z http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

• Ile obserwacji powinniśmy przeskalować ponownie? Dobrą sugestią jest pierwotna wielkość próby.

Jak możemy ponownie próbkować tyle obserwacji, ile w oryginalnej próbce?
Jeśli mam próbkę o wielkości 100 i próbuję oszacować wariancję średniej. Jak mogę uzyskać wiele próbek ładowania początkowego o wielkości 100 z łącznej wielkości próbki 100? W tym przypadku możliwa byłaby tylko 1 próbka bootstrapu, która byłaby odpowiednikiem oryginalnej próbki, prawda?

Oczywiście nie rozumiem czegoś bardzo podstawowego. Rozumiem, że liczba od idealnych próbek bootstrapowych zawsze jest nieskończona, a do określenia liczby próbek bootstrapowych niezbędnych do moich danych Musiałbym badania zbieżności utrzymywanie mój wymaganą precyzję w umyśle.
Ale jestem naprawdę zdezorientowany co do wielkości każdej pojedynczej próbki bootstrap.

sampling bootstrap resampling

— użytkownik 1265125
źródło

Góra strony p. 3, a ilustracje w nim wyraźnie i wyraźnie wskazują, że ponowne próbkowanie jest zastępowane.

— whuber

Ale jeśli rozmiar próbki bootstrap jest taki sam, jak całkowita liczba moich obserwacji, co mam zastąpić?

— user1265125

Uproszczony przykład - jeśli więc mam 4,1,3,7,5 jako mój zestaw próbek. Jak mogę utworzyć wiele próbek bootstrap o rozmiarze 5? Jedyną próbką bootstrapu w rozmiarze 5 będzie 4,1,3,7,5, tj. Oryginalny zestaw próbek.

— user1265125,

Och, czekaj, zrozumiałem - „• Aby zasymulować rozkład próbkowania, możemy po prostu pobrać powtarzalne losowe próbki z tej„ populacji ”złożonej z wielu kopii próbki”

— 1265125

Odpowiedzi:

Bootstrap jest przeprowadzany przez pobieranie próbek z wymianą . Wydaje się, że termin „z zastępstwem” jest dla ciebie niejasny. Jak zauważył whuber , ilustracja pobierania próbek z wymianą znajduje się na str. 3 referatu, do którego się odwołujesz (reprodukowany poniżej).

(źródło: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

Ogólna idea próbkowania z zamiennikiem polega na tym, że w każdym przypadku można próbkować wiele razy (zielony marmur na pierwszym zdjęciu powyżej; niebieskie i fioletowe kulki na ostatnim zdjęciu). Jeśli chcesz sobie wyobrazić ten proces, pomyśl o misce wypełnionej kolorowymi kulkami. Powiedz, że chcesz narysować pewną liczbę kulek z tej miski. Jeśli próbkowałeś bez wymiany, po prostu wyjmowałbyś kulki z miski i odłożył próbki na bok. Jeśli spróbowałeś z zamiennikiem, wówczas próbkowałbyś kulki jeden po drugim, wyjmując pojedynczy marmur z miski, zapisując jego kolor w swoim notatniku, a następnie zwracając go z powrotemdo miski. Tak więc przy pobieraniu próbek z wymianą ten sam marmur można próbkować wiele razy.

Dlatego podczas próbkowania bez zamiany można tylko próbkować $n$ kulki z miski zawierające $n$ kulki, podczas gdy w przypadku próbkowania z wymianą można próbkować dowolną liczbę kul (nawet większą $n$ ) ze skończonej populacji. Jeśli próbkowałeś $n$ poza $n$ kulki bez wymiany uzyskasz dokładnie taką samą próbkę, ale w kolejności losowej. Jeśli próbkowałeś $n$ poza $n$ kulki z wymianą, za każdym razem możesz spróbować innej kombinacji kulek.

Jest $n \choose k$ sposoby pobierania próbek bez zamiany przypadków z populacji o wielkości i sposobów pobierania próbek z zastępowaniem. Jeśli chcesz przeczytać więcej o matematyce, możesz sprawdzić 2.1. Rozdział o kombinatoryce w internetowym podręczniku Wprowadzenie do prawdopodobieństwa autorstwa Hossein Pishro-Nik. Na stronie WolframMathWorld znajduje się także przydatny ściągawka . $k$ $n$ $n+k-1 \choose k$

— Tim
źródło

Ile obserwacji powinniśmy powtórzyć? Dobrą sugestią jest pierwotna wielkość próby.

Kiedy oryginalny rozmiar próbki jest zbyt duży i nie chcesz / nie możesz trenować modelu na pełnym zestawie danych, „dobra sugestia” nie jest tak dobra.

PS: Chciałem dodać to jako komentarz do pytania, ale nie mogę dodawać żadnych komentarzy ...

— daruma
źródło

Dlaczego chcesz dodać tę sugestię? Jeśli jest to spowodowane zestawami danych zbyt dużymi do regularnych wysiłków obliczeniowych, jest to istotny problem praktyczny, ale tak naprawdę nie ma zastosowania do kwestionowanej tutaj teorii ładowania początkowego. Ponadto chodziło o „oszacowanie wariancji statystyki próby”. Czy to naprawdę ma związek z ogólnym treningiem modelu? (Uwaga: nie bądź niegrzeczny, rozumiem, że nie możesz jeszcze publikować komentarzy, ale to nie zwalnia cię od udzielenia właściwej odpowiedzi podczas publikowania jako takiego. Musisz być o wiele bardziej przejrzysty, LUB zamieścić własne pytanie)

— IWS