Jakie są ważne zastosowania generowania liczb losowych w statystyce obliczeniowej?


15

Jak i dlaczego generatory liczb losowych (RNG) są ważne w statystyce obliczeniowej?

Rozumiem, że losowość jest ważna przy wyborze próbek do wielu testów statystycznych, aby uniknąć stronniczości wobec którejkolwiek hipotezy, ale czy istnieją inne obszary statystyki obliczeniowej, w których ważne są generatory liczb losowych?



1
O co pytasz? Twoje pytanie nie ma większego sensu.
Carl Witthoft

2
Lepiej zapytać o obszary, w których nie są one ważne. Prawdopodobnie byłaby to krótsza lista.
John Coleman

2
Pytanie jest szerokie, ale tytuł jest atrakcyjny, a odpowiedź Matthew jest dobrym przeglądem. Głosowałem za ponownym otwarciem!
Benoit Sanchez

3
Jest to zdecydowanie zbyt szerokie w porównaniu z konwencjonalnymi standardami SE i sprowadza się do pytania „dużej listy”, które prawdopodobnie zgromadzi wiele małych, ledwo opracowanych odpowiedzi, które często duplikują już udzielone odpowiedzi. Wydaje się jednak, że tutaj jest jakaś prawdziwa wartość. Kompromisem jest ochrona CW i ochrona. W przyszłości odpowiedzi, które wspominają o czymś bez opracowania i / lub o wspomnianych już zduplikowanych zastosowaniach, zostaną natychmiast usunięte i bez komentarza.
Gung - Przywróć Monikę

Odpowiedzi:


17

Jest wiele przykładów. O wiele za dużo, by je wymienić, i prawdopodobnie za dużo, by ktokolwiek mógł je całkowicie poznać (poza tym być może @ whuber, którego nigdy nie należy lekceważyć).

Jak wspomniałeś, w kontrolowanych eksperymentach unikamy błędu systematycznego próbkowania poprzez losowe dzielenie osobników na grupy leczenia i kontrolne.

Podczas ładowania początkowego aproksymujemy powtarzane próbkowanie z populacji przez losowe próbkowanie z zastępowaniem z ustalonej próbki. To pozwala nam między innymi oszacować wariancję naszych szacunków.

W ramach walidacji krzyżowej szacujemy błąd próby poza oszacowaniem, losowo dzieląc nasze dane na plasterki i zestawiając losowe zestawy szkoleniowe i testowe.

W testach permutacyjnych używamy losowych permutacji do próbkowania pod hipotezą zerową, co pozwala na wykonywanie testów hipotez nieparametrycznych w wielu różnych sytuacjach.

W workowaniu kontrolujemy wariancję oszacowania, wielokrotnie wykonując oszacowanie na próbkach bootstrap danych treningowych, a następnie uśredniając wyniki.

W losowych lasach dodatkowo kontrolujemy wariancję oszacowania, losowo próbkując z dostępnych predyktorów w każdym punkcie decyzyjnym.

W symulacji prosimy model dopasowania, aby losowo generował nowe zestawy danych, które możemy porównać do danych szkoleniowych lub testowych, pomagając zweryfikować dopasowanie i założenia w modelu.

W łańcuchu Markov Monte Carlo próbujemy z rozkładu, badając przestrzeń możliwych wyników za pomocą łańcucha Markowa (dzięki @Ben Bolker za ten przykład).

To tylko typowe, codzienne aplikacje, które przychodzą na myśl od razu. Gdybym kopał głęboko, prawdopodobnie mógłbym podwoić długość tej listy. Losowość jest zarówno ważnym przedmiotem badań, jak i ważnym narzędziem do władania.


To wszystko prawda, ale nie rozwiązuje głównego problemu: PRNG z jakąkolwiek wynikową strukturą lub przewidywalnością w sekwencji spowoduje niepowodzenie symulacji.
Carl Witthoft

3
Jedną z rzeczy, o których warto wspomnieć, są koszty obliczeniowe i pamięci związane z generowaniem dużej liczby liczb losowych lub pseudolosowych. Niektóre zastosowania RNG w statystykach wymagają setek do milionów liczb losowych, ale niektóre wymagają wielu rzędów wielkości więcej, co wiąże się z obiema tymi kosztami.
Alexis

5

To wszystko prawda, ale nie rozwiązuje głównego problemu: PRNG z jakąkolwiek strukturą wynikową lub przewidywalnością w sekwencji będzie spowoduje niepowodzenie symulacji. Carl Witthoft 31 stycznia o 15:51

Jeśli to twoja sprawa, to może tytuł pytania powinien zostać zmieniony na „Wpływ wyboru RNG na wyniki Monte Carlo” lub coś w tym rodzaju. W tym przypadku, rozważanym już przy weryfikacji krzyżowej SE , oto kilka wskazówek

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.