Pytania otagowane jako resampling

Ponowne próbkowanie polega na pobraniu próbki z próbki. Typowe zastosowania to zbieranie próbek (przyjmowanie podpróbki, np. Wszystkie wartości oprócz 1) i ładowanie początkowe (pobieranie próbek z wymianą). Techniki te mogą zapewnić solidne oszacowanie rozkładu próbkowania, gdy jego wyprowadzenie analityczne byłoby trudne lub niemożliwe.

2
Metody ponownego próbkowania / symulacji: monte carlo, bootstrapping, jackknifing, cross-validation, testy randomizacji i testy permutacji
Próbuję zrozumieć różnicę między różnymi metodami ponownego próbkowania (symulacja Monte Carlo, ładowanie parametryczne, ładowanie nieparametryczne, podnoszenie, walidacja krzyżowa, testy randomizacji i testy permutacji) i ich implementacja w moim kontekście przy użyciu R. Powiedzmy, że mam następującą sytuację - chcę wykonać ANOVA ze zmienną Y ( Yvar) i zmienną X ( …

5
Czy potrafisz się dopasować, trenując algorytmy uczenia maszynowego za pomocą CV / Bootstrap?
To pytanie może być zbyt otwarte, aby uzyskać ostateczną odpowiedź, ale mam nadzieję, że nie. Algorytmy uczenia maszynowego, takie jak SVM, GBM, Random Forest itp., Generalnie mają pewne wolne parametry, które poza pewną wskazówką praktyczną, muszą być dostosowane do każdego zestawu danych. Zazwyczaj odbywa się to za pomocą pewnego rodzaju …


2
Dlaczego warto stosować stratyfikację krzyżową? Dlaczego nie wpływa to na korzyści związane z wariancją?
Powiedziano mi, że korzystne jest stosowanie warstwowej weryfikacji krzyżowej, zwłaszcza gdy klasy odpowiedzi są niezrównoważone. Jeśli jednym z celów walidacji krzyżowej jest pomoc w rozliczeniu losowości naszej oryginalnej próbki danych treningowych, na pewno sprawienie, by każda zakładka miała taki sam rozkład klas, działałoby przeciwko temu, chyba że byłeś pewien, że …

2
jakie są założenia testu permutacyjnego?
Często mówi się, że testy permutacji nie mają żadnych założeń, jednak z pewnością nie jest to prawdą. Na przykład, jeśli moje próbki są w jakiś sposób skorelowane, mogę sobie wyobrazić, że permutacja ich etykiet nie byłaby właściwa. Myślę tylko, że znalazłem o tym problemie to zdanie z wikipedii: „Ważnym założeniem …

2
Metody ponownego próbkowania Careta
Korzystam z biblioteki caretw języku R do testowania różnych procedur modelowania. trainControlObiektu pozwala na określenie metody wielokrotnego pobierania próbek. Te sposoby są opisane w dokumentacji części 2.3 i obejmują: boot, boot632, cv, LOOCV, LGOCV, repeatedcvi oob. Chociaż niektóre z nich można łatwo wywnioskować, nie wszystkie z tych metod są jasno …
20 r  resampling  caret 

2
Testowanie klasyfikacji danych o nadmiernie próbkowanych zakłóceniach
Pracuję nad bardzo niezrównoważonymi danymi. W literaturze stosuje się kilka metod ponownego równoważenia danych za pomocą ponownego próbkowania (nadmiernego lub niepełnego próbkowania). Dwa dobre podejścia to: SMOTE: TECHnique over-sampling syntetycznej mniejszości ( SMOTE ) ADASYN: Adaptacyjne syntetyczne podejście do próbkowania dla niezrównoważonego uczenia się ( ADASYN ) Wdrożyłem ADASYN, ponieważ …

2
Test na pobieranie próbek IID
Jak byś przetestował lub sprawdził, czy próbkowanie jest IID (niezależne i identycznie rozproszone)? Zauważ, że nie mam na myśli Gaussa i dystrybucji identycznej, tylko IID. Pomysł, który przychodzi mi na myśl, to wielokrotne dzielenie próbki na dwie podpróbki o równej wielkości, wykonanie testu Kołmogorowa-Smirnowa i sprawdzenie, czy rozkład wartości p …

2
Jaka jest procedura „walidacji bootstrap” (inaczej „ponownej próbkowania cross-validation”)?
„Walidacja bootstrap” / „ponowna próbkowanie cross-validation” jest dla mnie nowa, ale została omówiona w odpowiedzi na to pytanie . Rozumiem, że dotyczy to 2 rodzajów danych: danych rzeczywistych i danych symulowanych, w których dany zestaw danych symulowanych jest generowany z danych rzeczywistych przez ponowne próbkowanie z wymianą, aż dane symulowane …

2
Najlepsze sugerowane podręczniki na temat ponownego próbkowania Bootstrap?
Chciałem tylko zapytać, które według ciebie są najlepsze dostępne książki na temat bootstrapu. Rozumiem przez to niekoniecznie tylko ten napisany przez jego twórców. Czy możesz wskazać, który podręcznik jest dla Ciebie najlepszy dla bootstrapu, który spełnia następujące kryteria? Podstawa filozoficzna / epistemologiczna techniki, która wymienia dziedzinę stosowalności, mocne i słabe …

1
Czy ta metoda ponownego próbkowania szeregów czasowych jest znana w literaturze? Czy to ma imię?
Ostatnio szukałem sposobów na ponowne próbkowanie szeregów czasowych Zachowaj w przybliżeniu autokorelację długich procesów pamięci. Zachowaj domenę obserwacji (na przykład seria liczb całkowitych po ponownym próbkowaniu jest nadal serią liczb całkowitych). W razie potrzeby może wpływać tylko na niektóre skale. Wymyśliłem następujący schemat permutacji dla szeregów czasowych o długości :2N2N2^N …


1
Czy konieczne jest centrowanie podczas ładowania próbki?
Czytając o przybliżeniu rozkładu próbki, natknąłem się na nieparametryczną metodę ładowania początkowego. Najwyraźniej można zbliżyć się do rozkładu przez podział ˉ X * n - ˉ X n , gdzie ˉ X * n oznacza średnią próbkę z próbki uruchamiającego.X¯n- μX¯n−μ\bar{X}_n-\muX¯∗n- X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯∗nX¯n∗\bar{X}_n^* Moje pytanie brzmi zatem: czy potrzebuję centrowania? Po …

1
Dlaczego nie zawsze używać elementów CI bootstrap?
Zastanawiałem się, jak CI bootstrap (i BCa w układzie dwubiegunowym) działają na normalnie dystrybuowanych danych. Wydaje się, że dużo pracy analizuje ich wydajność w różnych typach dystrybucji, ale nie można znaleźć niczego w normalnie dystrybuowanych danych. Ponieważ najpierw wydaje się rzeczą oczywistą studiowanie, przypuszczam, że dokumenty są po prostu za …

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.