Załóżmy, że wykonuje się tak zwany nieparametryczny bootstrap, pobierając próbki o wielkości każda z oryginalnych obserwacji z zastąpieniem. Uważam, że ta procedura jest równoważna z oszacowaniem skumulowanej funkcji rozkładu przez empiryczny plik cdf:
http://en.wikipedia.org/wiki/Empirical_distribution_function
a następnie uzyskanie próbek bootstrap poprzez symulację obserwacji z szacowanych czasów cdf z rzędu.
Jeśli mam rację, należy zająć się problemem nadmiernego dopasowania, ponieważ empiryczny plik cdf ma około N parametrów. Oczywiście asymptotycznie zbiega się w populacji cdf, ale co z próbkami skończonymi? Np. Gdybym ci powiedział, że mam 100 obserwacji i zamierzam oszacować cdf jako z dwoma parametrami, nie byłbyś zaniepokojony. Gdyby jednak liczba parametrów wzrosła do 100, nie wydawałoby się to rozsądne.
Podobnie, gdy stosuje się standardową regresję wielokrotną liniową, rozkład składnika błędu jest szacowany jako . Jeśli ktoś decyduje się na przeładowanie reszt, musi zdać sobie sprawę, że teraz jest około parametrów używanych tylko do obsługi rozkładu terminu błędu.
Czy możesz skierować mnie do niektórych źródeł, które jednoznacznie rozwiązują ten problem, lub powiedz mi, dlaczego nie jest to problem, jeśli uważasz, że popełniłem błąd.