Odpowiem ci na temat symulacji za pomocą R, ponieważ jest to jedyna, którą znam. R ma wiele wbudowanych rozkładów, które można symulować. Logika nazewnictwa polega na tym, że do symulacji dystrybucji zwanej dis
nazwą będzie rdis
.
Poniżej znajdują się te, których najczęściej używam
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
Można znaleźć kilka uzupełnień w Dopasowanie rozkładów R .
Dodatek: dzięki @jthetzel za udostępnienie linku z pełną listą dystrybucji i pakietów, do których należą.
Ale poczekaj, jest więcej: OK, po komentarzu @ whubera postaram się odnieść do innych punktów. Jeśli chodzi o punkt 1, nigdy nie stosuję podejścia polegającego na dopasowaniu. Zamiast tego zawsze myślę o pochodzeniu sygnału, na przykład o tym, co powoduje to zjawisko, czy istnieje pewna naturalna symetria w jego wytwarzaniu itp. Potrzebujesz kilku rozdziałów książki, aby go opisać, więc podam tylko dwa przykłady.
Jeśli dane się liczą i nie ma górnej granicy, próbuję Poissona. Zmienne Poissona można interpretować jako liczby kolejnych niezależnych w oknie czasowym, które jest bardzo ogólną strukturą. Dopasowuję rozkład i sprawdzam (często wizualnie), czy wariancja jest dobrze opisana. Dość często wariancja próbki jest znacznie wyższa, w takim przypadku używam dwumianu ujemnego. Ujemny dwumian można interpretować jako mieszankę Poissona z różnymi zmiennymi, co jest jeszcze bardziej ogólne, więc zwykle pasuje bardzo dobrze do próbki.
Jeśli myślę, że dane są symetryczne wokół średniej, tj. Że odchylenia są równie prawdopodobne, że będą dodatnie lub ujemne, staram się dopasować Gaussa. Następnie sprawdzam (ponownie wizualnie), czy jest dużo wartości odstających, tj. Punkty danych są bardzo oddalone od średniej. Jeśli tak, używam zamiast tego t Studenta. Rozkład t Studenta można interpretować jako mieszaninę Gaussa z różnymi wariancjami, co jest znowu bardzo ogólne.
W tych przykładach, kiedy mówię wizualnie, mam na myśli, że używam wykresu QQ
Punkt 3 również zasługuje na kilka rozdziałów książki. Efekty użycia rozkładu zamiast innego są nieograniczone. Zamiast przejść przez to wszystko, będę kontynuować dwa powyższe przykłady.
Na początku nie wiedziałem, że dwumian ujemny może mieć sensowną interpretację, więc cały czas korzystałem z Poissona (ponieważ lubię być w stanie interpretować parametry w kategoriach ludzkich). Bardzo często, kiedy używasz Poissona, ładnie pasujesz do średniej, ale nie doceniasz wariancji. Oznacza to, że nie jesteś w stanie odtworzyć ekstremalnych wartości próbki i weźmiesz pod uwagę takie wartości jak wartości odstające (punkty danych, które nie mają takiego samego rozkładu jak inne punkty), podczas gdy tak naprawdę nie są.
Ponownie na początku nie wiedziałem, że t Studenta również ma sensowną interpretację i że cały czas będę używać Gaussa. Podobnie się stało. Dobrze dopasowałbym średnią i wariancję, ale nadal nie wychwyciłbym wartości odstających, ponieważ prawie wszystkie punkty danych powinny znajdować się w granicach 3 standardowych odchyleń od średniej. To samo się stało, doszedłem do wniosku, że niektóre punkty były „nadzwyczajne”, podczas gdy w rzeczywistości tak nie było.