Studiując ostatnio bootstrap, wpadłem na pytanie koncepcyjne, które wciąż mnie zastanawia:
Masz populację i chcesz poznać atrybut populacji, tj. , gdzie używam do reprezentowania populacji. Ta może być średnia populacja np. Zwykle nie można uzyskać wszystkich danych z populacji. Narysuj więc próbkę o rozmiarze z populacji. Załóżmy, że masz próbkę idącą dla uproszczenia. Następnie otrzymujesz swój estymator . Chcesz użyć do wyciągania wniosków na temat , więc chciałbyś poznać zmienność .
Po pierwsze, istnieje prawdziwa dystrybucja próbkowania . Koncepcyjnie można pobrać wiele próbek (każda z nich ma rozmiar ) z populacji. Za każdym razem będziesz rozumieć ponieważ za każdym razem będziesz mieć inną próbkę. W końcu będziesz w stanie odzyskać prawdziwą dystrybucję . Ok, to przynajmniej koncepcyjny punkt odniesienia dla oszacowania rozkładu . Pozwól mi to powtórzyć: ostatecznym celem jest użycie różnych metod do oszacowania lub przybliżenia prawdziwego rozkładu .
Teraz pojawia się pytanie. Zwykle masz tylko jedną próbkę która zawiera punktów danych. Następnie próbujesz wiele razy z tej próbki i pojawi się dystrybucja bootstrap . Moje pytanie brzmi: jak blisko jest ta dystrybucja ładowania początkowego do prawdziwej dystrybucji próbkowania ? Czy istnieje sposób, aby to skwantyfikować?