To pytanie zostało wywołane przez coś, co przeczytałem w tym podręczniku do statystyki dla absolwentów, a także (niezależnie) usłyszałem podczas tej prezentacji na seminarium statystycznym. W obu przypadkach stwierdzenie było zgodne z „ponieważ wielkość próbki jest dość mała, postanowiliśmy przeprowadzić oszacowanie za pomocą bootstrap zamiast (lub wraz z) tą metodą parametryczną ”.
Nie przejdziemy do szczegółów, ale prawdopodobnie argumentacja była następująca: Metoda zakłada dane śledzić pewien parametrycznego dystrybucji . W rzeczywistości rozkład nie jest dokładnie , ale jest w porządku, o ile wielkość próbki jest wystarczająco duża. Ponieważ w tym przypadku wielkość próbki jest zbyt mała, przełączmy się na (nieparametryczny) bootstrap, który nie przyjmuje żadnych założeń dystrybucyjnych. Problem rozwiązany!D D
Moim zdaniem nie po to jest bootstrap. Oto, jak to widzę: bootstrap może dać przewagę, gdy jest mniej lub bardziej oczywiste, że jest wystarczająca ilość danych, ale nie ma rozwiązania w formie zamkniętej, aby uzyskać standardowe błędy, wartości p i podobne statystyki. Klasycznym przykładem jest uzyskanie CI dla współczynnika korelacji na podstawie próbki z dwuwymiarowego rozkładu normalnego: istnieje rozwiązanie w postaci zamkniętej, ale jest tak skomplikowane, że ładowanie jest prostsze. Jednak nic nie sugeruje, że bootstrap może w jakiś sposób pomóc uniknąć małej próbki.
Czy moje postrzeganie jest prawidłowe?
Jeśli uznasz to pytanie za interesujące, jest jeszcze jedno, bardziej szczegółowe pytanie ode mnie:
Bootstrap: problem nadmiernego dopasowania
PS Nie mogę się powstrzymać od podzielenia się jednym rażącym przykładem „podejścia bootstrap”. Nie ujawniam nazwiska autora, ale jest on jednym ze „quantów” starszego pokolenia, który napisał książkę o finansach ilościowych w 2004 roku. Stąd wzięto przykład.
Rozważ następujący problem: załóżmy, że masz 4 zasoby i 120 miesięcznych obserwacji zwrotu dla każdego. Celem jest zbudowanie wspólnego 4-wymiarowego cdf rocznych zwrotów. Nawet w przypadku pojedynczego zasobu zadanie wydaje się trudne do wykonania przy zaledwie 10 rocznych obserwacjach, nie mówiąc już o oszacowaniu 4-wymiarowego cdf. Ale nie martw się, „pasek startowy” pomoże ci: weź wszystkie dostępne 4-wymiarowe obserwacje, zmień próbkę 12 z zamiennikiem i połącz je, aby zbudować jeden „ładowany” 4-wymiarowy wektor rocznych zwrotów. Powtórz to 1000 razy, a oto masz próbkę „bootstrap” z 1000 rocznych zysków. Użyj tego jako próbki średniej wielkości 1000 do celów oceny cdf lub innych wniosków, które można wyciągnąć z tysiącletniej historii.