Istnieje kilka popularnych technik ponownego próbkowania, które są często stosowane w praktyce, takich jak ładowanie, test permutacji, scyzoryk itp. Istnieje wiele artykułów i książek na temat tych technik, na przykład Philip I Good (2010) Permutation, Parametric i Bootstrap Tests hipotez Moje pytanie brzmi, która technika ponownego próbkowania zyskała większą popularność …
To pytanie może być zbyt otwarte, aby uzyskać ostateczną odpowiedź, ale mam nadzieję, że nie. Algorytmy uczenia maszynowego, takie jak SVM, GBM, Random Forest itp., Generalnie mają pewne wolne parametry, które poza pewną wskazówką praktyczną, muszą być dostosowane do każdego zestawu danych. Zazwyczaj odbywa się to za pomocą pewnego rodzaju …
Czytałem w kilku źródłach, w tym w tym , że Lasy Losowe nie są wrażliwe na wartości odstające (na przykład tak, jak regresja logistyczna i inne metody ML). Jednak dwie intuicje mówią mi inaczej: Ilekroć budowane jest drzewo decyzyjne, wszystkie punkty muszą być klasyfikowane. Oznacza to, że nawet wartości odstające …
Wiem, że jest to dość gorący temat, na który nikt tak naprawdę nie jest w stanie udzielić prostej odpowiedzi. Niemniej jednak zastanawiam się, czy poniższe podejście nie byłoby przydatne. Metoda ładowania początkowego jest użyteczna tylko wtedy, gdy twoja próbka odpowiada mniej więcej (dokładnie odczytać) tej samej dystrybucji, co pierwotna populacja. …
Ostatnio dowiedziałem się o stosowaniu technik ładowania początkowego do obliczania standardowych błędów i przedziałów ufności dla estymatorów. Nauczyłem się, że jeśli dane są IID, możesz traktować dane przykładowe jako populację i wykonywać próbkowanie z wymianą, co pozwoli ci uzyskać wiele symulacji statystyki testowej. W przypadku szeregów czasowych wyraźnie nie możesz …
W notatkach MIT OpenCourseWare z 18.05 Wprowadzenie do prawdopodobieństwa i statystyki, wiosna 2014 (obecnie dostępnych tutaj ), stwierdza: Metoda percentyla bootstrap jest atrakcyjna ze względu na swoją prostotę. Zależy to jednak od rozkładu boot oparciu o konkretną próbkę będącą dobrym przybliżeniem do prawdziwego rozkładu . Rice mówi o metodzie centylowej: …
Często twierdzi się, że ładowanie początkowe może zapewnić oszacowanie błędu systematycznego w estymatorze. Jeśli jest szacunkiem dla niektórych statystyk, a są replikami ładowania początkowego (z ), to szacunek obciążenia początkowego szacunku wynosi co wydaje się niezwykle proste i potężne, do tego stopnia, że niepokoi. ~ T II∈{1,⋯,N}biyt≈1t^t^\hat tt~it~i\tilde t_ii∈{1,⋯,N}i∈{1,⋯,N}i\in\{1,\cdots,N\}biast≈1N∑it~i−t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t …
Bardzo wypaczone rozkłady, takie jak log-normal, nie dają dokładnych przedziałów ufności ładowania. Oto przykład pokazujący, że lewy i prawy obszar ogona są dalekie od idealnego 0,025 bez względu na to, jaką metodę ładowania początkowego wypróbujesz w R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- …
Mam manuskrypt dotyczący metody bootstrap do testowania hipotez jednego środka i chciałbym przesłać ją do publikacji, ale mam dylemat moralny. Zapisałem się na protest przeciwko Elsevierowi z powodu ich nieetycznych praktyk biznesowych, a przeczytanie całej sprawy naprawdę zmusiło mnie do zakwestionowania etyki innych czasopism naukowych o charakterze zarobkowym. Dlatego chciałbym …
Kiedy jeden ładuje parametr, aby uzyskać standardowy błąd, otrzymujemy rozkład parametru. Dlaczego nie wykorzystamy średniej tego rozkładu jako wyniku lub oszacowania parametru, który próbujemy uzyskać? Czy rozkład nie powinien być zbliżony do rzeczywistego? Dlatego otrzymalibyśmy dobre oszacowanie „prawdziwej” wartości? Podajemy jednak oryginalny parametr uzyskany z naszej próbki. Dlaczego? Dzięki
Studiując ostatnio bootstrap, wpadłem na pytanie koncepcyjne, które wciąż mnie zastanawia: Masz populację i chcesz poznać atrybut populacji, tj. , gdzie używam do reprezentowania populacji. Ta może być średnia populacja np. Zwykle nie można uzyskać wszystkich danych z populacji. Narysuj więc próbkę o rozmiarze z populacji. Załóżmy, że masz próbkę …
Chciałem zrobić demonstrację klasową, w której porównuję przedział t z przedziałem ładowania początkowego i obliczę prawdopodobieństwo pokrycia obu. Chciałem, aby dane pochodziły z przekrzywionej dystrybucji, więc postanowiłem wygenerować dane jako exp(rnorm(10, 0, 2)) + 1próbkę o wielkości 10 z przesuniętego logarytmu normalnego. Napisałem skrypt, aby narysować 1000 próbek i dla …
Czy jest dostępna technika ładowania początkowego do obliczania przedziałów predykcji dla prognoz punktowych uzyskanych np. Z regresji liniowej lub innej metody regresji (k-najbliższy sąsiad, drzewa regresji itp.)? Jakoś wydaje mi się, że czasami proponowanym sposobem, aby po prostu wyrzucić prognozę punktową (patrz np. Przedziały predykcji dla regresji kNN ), nie …
Korzystam z pakietu „boot”, aby obliczyć przybliżoną 2-stronną wartość p ładowania początkowego, ale wynik jest zbyt daleko od wartości p użycia t.test. Nie mogę zrozumieć, co zrobiłem źle w moim kodzie R. Czy ktoś może mi dać na to wskazówkę time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) …
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.