Korzystanie z bootstrap w celu uzyskania rozkładu próbkowania 1. percentyla

Mam próbkę (o wielkości 250) z populacji. Nie znam rozkładu populacji.

Główne pytanie: Chcę estymację punktową o 1 ^st -percentile populacji, a następnie chcę 95% przedział ufności wokół mojego punktu oszacowania.

Chodzi mi o oszacowanie będzie próbka 1 ^st -percentile. Oznaczam to . $x$

Następnie staram się zbudować przedział ufności wokół oszacowania punktu. Zastanawiam się, czy warto tutaj użyć bootstrap. Jestem bardzo niedoświadczony w bootstrapie, więc wybacz, jeśli nie użyję odpowiedniej terminologii itp.

Oto jak próbowałem to zrobić. Rysuję 1000 losowych próbek z zamiennikiem z mojej oryginalnej próbki. I uzyskać 1 ^st -percentile od każdego z nich. Tak więc mam 1000 punktów - w kategorii "1 ^st -percentiles". Patrzę na empiryczny rozkład tych 1000 punktów. Oznaczam jego średnią . Określam „stronniczość” w następujący sposób: . Biorę 2,5 ^th -percentile i 97,5 ^th percentyla 1000 punktów do uzyskania dolnej i górnej granicy, co nazywam 95% przedział ufności wokół 1 ^st -percentile oryginalnej próbki. Oznaczam te punkty i . $x_{mean}$ $\text{bias}=x_{mean}-x$ $x_{0.025}$ $x_{0.975}$

Ostatnim krokiem jest pozostały przystosować ten przedział ufności się wokół 1 ^st -percentile z populacji zamiast wokół 1 ^st -percentile z oryginalnej próbki . Tak więc biorę jako dolny koniec i jako górny koniec z 95% przedziałem ufności wokół szacunków punkcie ludności 1 ^st -percentile. Ten ostatni przedział był tym, czego szukałem. $x-\text{bias}-(x_{mean}-x_{0.025})$ $x-\text{bias}+(x_{0.975}-x_{mean})$

Kluczowy punkt, moim zdaniem, jest to, czy jest sens stosowania bootstrap do 1 ^st -percentile który jest dość blisko ogona nieznanego bazowego rozkładu populacji. Podejrzewam, że może to być problematyczne; pomyśl o użyciu bootstrap do budowania przedziału ufności wokół minimum (lub maksimum).

Ale może to podejście jest wadliwe? Proszę daj mi znać.

EDYTOWAĆ:

Mając na myśli o problemie trochę więcej, widzę, że moje rozwiązanie wynika następujące: empiryczny 1 ^st percentyla oryginalnej próbki mogą być tendencyjne prognozy o 1 ^st percentyla populacji. A jeśli tak, to oszacowanie punktowe powinno być skorygowane o odchylenie: . W przeciwnym razie przedział ufności skorygowany o odchylenie nie byłby zgodny z oszacowanym punktem nieskorygowanym odchyleniem. Muszę dostosować zarówno oszacowanie punktowe, jak i przedział ufności, lub żaden z nich. $x-\text{bias}$

Z drugiej strony, jeśli nie pozwolę, aby oszacowanie było stronnicze, nie musiałbym dokonywać korekty błędu. Oznacza to, że wziąłbym jako oszacowanie punktu, a jako dolny koniec i jako górny koniec 95% przedział ufności. Nie jestem pewien, czy ten przedział ma sens ... $x$ $x-(x_{mean}-x_{0.025})$ $x+(x_{0.975}-x_{mean})$

Więc robi to sensu zakładać, że próbka 1 ^st percentyla jest stronniczy oszacowanie populacji 1 ^st percentyla? A jeśli nie, czy moje alternatywne rozwiązanie jest prawidłowe?

— Richard Hardy
źródło

To nie odnosi się bezpośrednio do pytania bootstrap, ale może ci być pomocne: onlinecourses.science.psu.edu/stat414/node/231

— shadowtalker

Wnioskowanie o ładowaniu początkowym dla skrajności dystrybucji jest ogólnie wątpliwe. Podczas ładowania początkowego n-out-of-n minimum lub maksimum w próbce o rozmiarze , masz szansa, że odtworzysz przykładową ekstremalną obserwację i podobnie około szansa na odtworzenie drugiej ekstremalnej obserwacji i tak dalej. Otrzymujesz rozkład deterministyczny, który ma niewiele wspólnego z kształtem rozkładu leżącego u podstawy ogona. Co więcej, bootstrap nie może dać ci niczego poniżej minimalnej próbki, nawet jeśli dystrybucja ma wsparcie poniżej tej wartości (jak by to było w przypadku większości ciągłych dystrybucji, takich jak powiedzmy normalne). $n$ $1 - (1-1/n)^n \sim 1 - {\rm exp}(-1) = 63.2\%$ ${\rm exp}(-1) - {\rm exp}(-2)=23.3\%$

Rozwiązania są skomplikowane i opierają się na kombinacjach asymptotyków z teorii wartości ekstremalnej i podpróbkowania mniejszej niż n obserwacji (w rzeczywistości, znacznie mniej, wskaźnik powinien zbiegać się do zera jako ). $n\to\infty$

— StasK
źródło

Odpowiedź jest pomocna, ale chciałbym dowiedzieć się, jak blisko 1. percentyl jest minimalny w odniesieniu do zachowania bootstrap? Sądzę, że w bardzo dużych próbkach pierwszy percentyl można uznać za „daleki” od minimum, a powyższe problemy można zignorować, podczas gdy w małych próbkach pierwszy percentyl sam w sobie jest minimum i problemy będą miały duże znaczenie. Tak więc jesteśmy gdzieś pośrodku. Wydaje mi się, że pod tym względem moją próbkę liczącą 250 obserwacji należy uznać za dość małą.

— Richard Hardy