Dlaczego ładowanie jest przydatne?

Jeśli wszystko, co robisz, to ponowne próbkowanie z rozkładu empirycznego, dlaczego nie po prostu przestudiować rozkład empiryczny? Na przykład zamiast badać zmienność poprzez powtarzanie prób, dlaczego nie po prostu skwantyfikować zmienność z rozkładu empirycznego?

— ztyh
źródło

„ (W tym sensie) rozkład bootstrap reprezentuje (przybliżony) nieparametryczny, nieinformacyjny rozkład boczny dla naszego parametru. Ale ten rozkład bootstrap jest uzyskiwany bezboleśnie - bez konieczności formalnego określania wcześniejszego i bez konieczności próbkowania z rozkładu tylnego. Stąd możemy pomyśleć o dystrybucji bootstrap jako o „biednym” Bayesie z tyłu. ”Hastie i in. Elementy uczenia statystycznego ".

— Sek

Jak ocenilibyśmy niepewność naszych szacunków na podstawie rozkładu empirycznego?

— usεr11852

„W łagodnych warunkach regularności pasek startowy przybliża rozkład estymatora lub statystyki testowej co najmniej tak samo dokładny jak przybliżenie uzyskane z teorii asymptotycznej pierwszego rzędu”. unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .

— jbowman

Kłócisz się, nie próbując zrozumieć. Uwierzcie mi, nie zdaliście sobie sprawy, że bootstrap jest bezwartościowy w porównaniu z wieloma tysiącami statystyk w ciągu czterech lub kilkudziesięciu lat. Cytat nie przeczytałeś uważnie. Myślę, że nie zrozumiałeś kluczowej roli przypadkowości w statystykach. Stwierdzenia takie jak „Po co zawracać sobie głowę !!” w odniesieniu do „uzyskanie rozkładu

są… co najmniej niezwykłe. Jeśli uważasz, że nie jest ważne, aby zrozumieć rozkład swoich oszacowań, możesz rozważyć, dlaczego istnieje pole statystyki w ogóle i ponownie pomyśl o tym

T (X)

$T(X)$

— jbowman

@ztyh Mówisz „jeśli zamapujesz każdą próbkę

, otrzymasz rozkład

”. Być może powinieneś pomyśleć o tym, jak zamapowałbyś pojedynczy punkt

? Lub dowolna funkcja

w tym zakresie.

X

$X$

T (X)

$T(X)$

T (X)

$T(X)$

X_{i}

$X_i$

T (X) = \bar{X}

$T(X) = \bar{X}$

T (X_{1}, X_{2}, \dots X_{n})

$T(X_1, X_2, \cdots X_n)$

— knrumsey

Odpowiedzi:

Bootstrapping (lub inne ponowne próbkowanie) to eksperymentalna metoda szacowania rozkładu statystyki.

Jest to bardzo prosta i łatwa metoda (oznacza to po prostu, że obliczysz wiele losowych wariantów przykładowych danych w celu uzyskania, oszacowania pożądanego rozkładu statystyki).

Najprawdopodobniej używasz go, gdy wyrażenie „teoretyczne / analityczne” jest zbyt trudne do uzyskania / obliczenia (lub jak mówi aksakal, że czasami są nieznane).

Przykład 1: Jeśli wykonasz analizę pca i chcesz porównać wyniki z „szacunkami odchylenia wartości własnych”, biorąc pod uwagę hipotezę, że zmienne nie korelują.

Można wielokrotnie mieszać dane i ponownie obliczać wartości własne pca, aby uzyskać rozkład (na podstawie losowych testów z danymi przykładowymi) dla wartości własnych.

Zauważ, że obecne praktyki spoglądają na fabułę piargową i stosują ogólne zasady, aby „zdecydować”, czy określona wartość własna jest znacząca / ważna, czy nie.
Przykład 2: Wykonałeś regresję nieliniową y ~ f (x), podając pewne oszacowanie szeregu parametrów dla funkcji f. Teraz chcesz poznać błąd standardowy dla tych parametrów.

Proste spojrzenie na resztki i algebrę liniową, jak w OLS, nie jest tutaj możliwe. Łatwym sposobem jest jednak wielokrotne obliczenie tej samej regresji przy ponownym mieszaniu resztek / błędów w celu uzyskania pomysłu na zmianę parametrów (biorąc pod uwagę rozkład składnika błędu na podstawie zaobserwowanych reszt).

Napisane przez StackExchangeStrike

— Sextus Empiricus
źródło

Myślę, że twój przykład nie jest bootstrapem. Po prostu pobiera próbki ze znanego rozkładu zerowego. Bootstrap to miejsce, w którym masz jedną próbkę i ponownie próbkujesz z tej próbki.

— ztyh

W swoim pytaniu wyobrażasz sobie obliczenie wariancji próbki, która jest rzeczywiście prosta i nie wymaga ładowania początkowego. W moim przykładzie mówię o sytuacji, w której mamy wartość wyprowadzoną z próbki. Wtedy nie możemy już po prostu obliczyć wariancji, nadal chcemy wiedzieć, jak ona się zmienia. Wielokrotnie szyfrując dane i ponownie obliczając wartości własne pca, można uzyskać takie (losowe) dane rozkładu, które następują po rozkładzie próbki. Jeśli się nie mylę, nazywa się to ładowaniem.

— Sextus Empiricus

Ok, rozumiem, gdzie nie rozumiałem rzeczy. Twój przykład ma sens. Dzięki.

— ztyh

Kluczową rzeczą jest to, że bootstrap tak naprawdę nie polega na ustaleniu cech rozkładu danych , ale raczej na obliczeniu cech estymatora zastosowanego do danych.

Coś w rodzaju funkcji rozkładu empirycznego powie ci dość dobre oszacowanie CDF, z którego pochodzą dane ... ale w izolacji nie mówi w zasadzie nic o tym, jak wiarygodne będą estymatory, które budujemy na podstawie tych danych. To jest pytanie, na które odpowiedziano za pomocą bootstrap.

— Cliff AB
źródło

Użycie (nieparametrycznego) bootstrapu do znalezienia „rozkładu danych” byłoby śmiechem: po prostu wymyśla funkcję rozkładu empirycznego, czyli dokładnie taki zestaw danych, z którego analityk zaczął. Przypomina mi algebrę college'u, gdy „rozwiązałem X” i znalazłem „X = X”.

— AdamO

Jeśli dokładnie wiesz, jaka jest podstawowa dystrybucja, nie musisz tego studiować. Czasami w naukach przyrodniczych znasz dokładnie rozkład.

JEŻELI znasz typ rozkładu, musisz tylko oszacować jego parametry i przestudiować go w zamierzonym znaczeniu. Na przykład, czasami wiesz, że rozkład podstawowy jest normalny. W niektórych przypadkach nawet wiesz, co to znaczy. Tak więc dla normalnej jedyne, co pozostaje do odkrycia, to odchylenie standardowe. Otrzymujesz odchylenie standardowe próbki i voila, otrzymujesz rozkład do badania.

Jeśli nie wiesz, co to jest dystrybucja, ale pomyśl, że jest to jedna z kilku na liście, możesz spróbować dopasować tę dystrybucję do danych i wybrać tę, która najlepiej pasuje. Następnie studiujesz tę dystrybucję.

WRESZCIE często nie znasz rodzaju dystrybucji, z którą masz do czynienia. I nie masz powodu, by sądzić, że należy on do jednej z 20 dystrybucji, do których R może dopasować twoje dane. Co zamierzasz zrobić? Ok, patrzysz na średnie i standardowe odchylenia, miło. Ale co jeśli jest bardzo przekrzywiony? Co jeśli jego kurtoza jest bardzo duża? i tak dalej. Naprawdę musisz znać wszystkie momenty dystrybucji, aby wiedzieć i studiować. Tak więc w tym przypadku przydatne jest nieparametryczne ładowanie. Nie zakładasz dużo i prostej próbki, a następnie studiujesz jego momenty i inne właściwości.

Chociaż ładowanie nieparametryczne nie jest magicznym narzędziem, ma pewne problemy. Na przykład może być stronniczy. Myślę, że parametryczne ładowanie jest obiektywne

— Aksakal
źródło

Myślę, że nawet jeśli nie znasz prawdziwego rozkładu, wiele momentów jest łatwych do obliczenia. Myślę więc, że problemem nie jest nieznajomość rodzaju dystrybucji, z którą masz do czynienia. Raczej chodzi o to, jaką statystykę próbujesz studiować. Niektóre statystyki mogą być trudne do obliczenia i dopiero wtedy przydatny jest bootstrap.

— ztyh

Podobnie jak w komentarzu do pytania do usεr11852, tak naprawdę mam wątpliwości co do korzyści w odniesieniu do obliczalności statystyk również ...

— ztyh

\ln (x^{3} + x)

$\ln (x^3+x)$

x * z

$x*z$

f (x, z)

$f(x,z)$

x, z

$x,z$

f

$f$

x

$x$

z

$z$

f (x, z)

$f(x,z)$