Jakie są ważne zastosowania generowania liczb losowych w statystyce obliczeniowej?

Jak i dlaczego generatory liczb losowych (RNG) są ważne w statystyce obliczeniowej?

Rozumiem, że losowość jest ważna przy wyborze próbek do wielu testów statystycznych, aby uniknąć stronniczości wobec którejkolwiek hipotezy, ale czy istnieją inne obszary statystyki obliczeniowej, w których ważne są generatory liczb losowych?

— Patrick
źródło

Ściśle powiązane: stats.stackexchange.com/q/135665/35989

— Tim

O co pytasz? Twoje pytanie nie ma większego sensu.

— Carl Witthoft

Lepiej zapytać o obszary, w których nie są one ważne. Prawdopodobnie byłaby to krótsza lista.

— John Coleman

Pytanie jest szerokie, ale tytuł jest atrakcyjny, a odpowiedź Matthew jest dobrym przeglądem. Głosowałem za ponownym otwarciem!

— Benoit Sanchez

Jest to zdecydowanie zbyt szerokie w porównaniu z konwencjonalnymi standardami SE i sprowadza się do pytania „dużej listy”, które prawdopodobnie zgromadzi wiele małych, ledwo opracowanych odpowiedzi, które często duplikują już udzielone odpowiedzi. Wydaje się jednak, że tutaj jest jakaś prawdziwa wartość. Kompromisem jest ochrona CW i ochrona. W przyszłości odpowiedzi, które wspominają o czymś bez opracowania i / lub o wspomnianych już zduplikowanych zastosowaniach, zostaną natychmiast usunięte i bez komentarza.

— Gung - Przywróć Monikę

Odpowiedzi:

Jest wiele przykładów. O wiele za dużo, by je wymienić, i prawdopodobnie za dużo, by ktokolwiek mógł je całkowicie poznać (poza tym być może @ whuber, którego nigdy nie należy lekceważyć).

Jak wspomniałeś, w kontrolowanych eksperymentach unikamy błędu systematycznego próbkowania poprzez losowe dzielenie osobników na grupy leczenia i kontrolne.

Podczas ładowania początkowego aproksymujemy powtarzane próbkowanie z populacji przez losowe próbkowanie z zastępowaniem z ustalonej próbki. To pozwala nam między innymi oszacować wariancję naszych szacunków.

W ramach walidacji krzyżowej szacujemy błąd próby poza oszacowaniem, losowo dzieląc nasze dane na plasterki i zestawiając losowe zestawy szkoleniowe i testowe.

W testach permutacyjnych używamy losowych permutacji do próbkowania pod hipotezą zerową, co pozwala na wykonywanie testów hipotez nieparametrycznych w wielu różnych sytuacjach.

W workowaniu kontrolujemy wariancję oszacowania, wielokrotnie wykonując oszacowanie na próbkach bootstrap danych treningowych, a następnie uśredniając wyniki.

W losowych lasach dodatkowo kontrolujemy wariancję oszacowania, losowo próbkując z dostępnych predyktorów w każdym punkcie decyzyjnym.

W symulacji prosimy model dopasowania, aby losowo generował nowe zestawy danych, które możemy porównać do danych szkoleniowych lub testowych, pomagając zweryfikować dopasowanie i założenia w modelu.

W łańcuchu Markov Monte Carlo próbujemy z rozkładu, badając przestrzeń możliwych wyników za pomocą łańcucha Markowa (dzięki @Ben Bolker za ten przykład).

To tylko typowe, codzienne aplikacje, które przychodzą na myśl od razu. Gdybym kopał głęboko, prawdopodobnie mógłbym podwoić długość tej listy. Losowość jest zarówno ważnym przedmiotem badań, jak i ważnym narzędziem do władania.

— Matthew Drury
źródło

To wszystko prawda, ale nie rozwiązuje głównego problemu: PRNG z jakąkolwiek wynikową strukturą lub przewidywalnością w sekwencji spowoduje niepowodzenie symulacji.

— Carl Witthoft

Jedną z rzeczy, o których warto wspomnieć, są koszty obliczeniowe i pamięci związane z generowaniem dużej liczby liczb losowych lub pseudolosowych. Niektóre zastosowania RNG w statystykach wymagają setek do milionów liczb losowych, ale niektóre wymagają wielu rzędów wielkości więcej, co wiąże się z obiema tymi kosztami.

— Alexis

To wszystko prawda, ale nie rozwiązuje głównego problemu: PRNG z jakąkolwiek strukturą wynikową lub przewidywalnością w sekwencji będzie spowoduje niepowodzenie symulacji. Carl Witthoft 31 stycznia o 15:51

Jeśli to twoja sprawa, to może tytuł pytania powinien zostać zmieniony na „Wpływ wyboru RNG na wyniki Monte Carlo” lub coś w tym rodzaju. W tym przypadku, rozważanym już przy weryfikacji krzyżowej SE , oto kilka wskazówek

Jeśli rozważasz źle zaprojektowane RNG, takie jak niesławny RANDU , wyraźnie wpłyną one negatywnie na przybliżenie Monte Carlo. Aby wykryć braki w RNG, istnieją banki wskaźników, takich jak testy Marshalla Diehard . (Na przykład Park & Miller (1988) okazało się, że brakuje generatora kongruencjalnego Lehmera o współczynniku 16807 , który można zastąpić 47271 lub 69621. Oczywiście zostało to zastąpione przez generatory masywnych okresów, takie jak Mersenne Twister PRNG .)
SE pytanie na matematyce zawiera link na temat wpływu (lub jej brak) na oszacowania i precyzji, jeśli nie bardzo pomocną odpowiedź.
Jeff Rosenthal (U Toronto) ma artykuł, w którym bada wpływ RNG na konwergencję łańcuchów (Monte Carlo) Markowa, ale nie mogę go znaleźć. Niedawno przeprowadziłem mały eksperyment na swoim blogu bez widocznego wpływu typu RNG.
- Nawiasem mówiąc, program loterii w Ontario wykorzystano źle zaprojektowane losowe generowanie, które zostało zauważone przez statystyki, Mohana Srivastavę z Toronto w Kanadzie, który powiadomił o tym Ontario Lottery and Gaming Corporation, zamiast czerpać z tego ogromny zysk luka.
Tutaj jest przykład przypadku, w którym na klasyczny symulator sieci wpływa zły wybór domyślny (powiązany z Park i Miller powyżej).
Istnieją szczególne problemy ze strukturą RNG stosowanych w obliczeniach równoległych . Używanie kilku nasion zwykle nie jest wystarczające, szczególnie w przypadku liniowych generatorów kongruencjalnych. W literaturze komputerowej można znaleźć wiele podejść, w tym skalowalne, równoległe pakiety generowania liczb losowych (SPRNG) Michaela Mascagniego (w tym wersja R) i twórcę dynamicznego Matsumoto , program C, który zapewnia wartości początkowe dla niezależnych strumieni podczas korzystania z twistera Mersenne . Rozwiązano to również w przypadku przepełnienia stosu SE .
W ubiegłym roku widziałam rozmowę przez Paula Whitlock o wpływie GNU Scientific Library sprawie zbieżności wysoki wymiar losowych spacerów, ale nie mogę.
Na koniec lekka uwaga, jest też literatura na temat rozróżnienia między RNG programowymi i sprzętowymi, z twierdzeniami, że wróżki mogą mieć wpływ na później !

— Xi'an
źródło