Zastanawiam się, czy istnieje jakiś test statystyczny do „przetestowania” znaczenia rozkładu bimodalnego. Mam na myśli, w jakim stopniu moje dane spełniają rozkład bimodalny, czy nie? Jeśli tak, czy jest jakiś test w programie R?
Zastanawiam się, czy istnieje jakiś test statystyczny do „przetestowania” znaczenia rozkładu bimodalnego. Mam na myśli, w jakim stopniu moje dane spełniają rozkład bimodalny, czy nie? Jeśli tak, czy jest jakiś test w programie R?
Odpowiedzi:
Innym możliwym podejściem do tego problemu jest zastanowienie się, co może się dziać za kulisami, które generują widoczne dane. Oznacza to, że można myśleć w kategoriach modelu mieszanki , na przykład modelu mieszanki Gaussa. Na przykład możesz sądzić, że twoje dane pochodzą z jednej normalnej populacji lub z mieszaniny dwóch normalnych rozkładów (w pewnej proporcji), z różnymi środkami i wariancjami. Oczywiście nie musisz wierzyć, że istnieje tylko jeden lub dwa, ani nie musisz wierzyć, że populacje, z których pochodzą dane, muszą być normalne.
Istnieją (co najmniej) dwa pakiety R, które pozwalają oszacować modele mieszanin. Jeden pakiet to flexmix , a drugi to mclust . Po oszacowaniu dwóch modeli kandydujących uważam, że możliwe jest przeprowadzenie testu współczynnika wiarygodności. Alternatywnie możesz użyć parametrycznej metody krzyżowego ładowania początkowego ( pdf ).
Jak wspomniano w komentarzach, strona Wikipedii na temat „Dystrybucja bimodalna” wymienia osiem testów multimodalności przeciwko nieimodalności i podaje odniesienia do siedmiu z nich.
W R. jest przynajmniej kilka. Na przykład:
Pakiet diptest
implementuje test zanurzeniowy Hartigana.
Te stamp
dane w bootstrap
pakiecie użyto Efron i Tibshirani za Wstępie do Bootstrap (książki, na której oparty jest pakiet), aby zrobić przykład odpowiadający ładowanie początkowe liczby trybów; jeśli masz dostęp do książki, możesz zastosować to podejście.
Efron, B. i Tibshirani, R. (1993) Wprowadzenie do Bootstrap .
Chapman and Hall, Nowy Jork, Londyn.
-
Istnieje pytanie dotyczące CV, które mówi o określeniu (tj. Oszacowaniu, a nie przetestowaniu) liczby trybów, które pojawia się przy wyszukiwaniu @ whubera. Tam warto przeczytać odpowiedzi. Jedna z odpowiedzi (moja, jak to się zdarza) zawiera link do wyszukiwarki Google, która pokazuje ten artykuł Davida Donoho na temat budowy jednostronnych elementów CI dla liczby trybów, które oczywiście można wykorzystać jako test (np. , jeśli jednostronny interwał nie obejmuje przypadku unimodalnego, możesz odrzucić unimodalność). Według mojej najlepszej wiedzy tak nie jestjeden z testów wspomnianych przez Wikipedię. Nie sądzę, aby istniała implementacja R tego przedziału czasu, ale (pomimo faktu, że Donoho ma tendencję do używania dość wyrafinowanych narzędzi w swojej dyskusji na ten temat), jest to dość prosty pomysł na wdrożenie. Pomysł ten jest bezpośrednio związany z pojęciem szacowania gęstości jądra.