Załóżmy, że mam zestaw niezależnych, identycznie rozmieszczonych obserwacji jednowymiarowych oraz dwie hipotezy na temat sposobu generowania :
: jest rysowany z pojedynczego rozkładu Gaussa z nieznaną średnią i wariancją.
: z mieszaniny dwóch Gaussów o nieznanej średniej, wariancji i współczynniku mieszania.
Jeśli dobrze rozumiem, są to modele zagnieżdżone, ponieważ model, który reprezentuje można opisać w kategoriach jeśli ograniczysz parametry dwóch Gaussów do identyczności lub ograniczysz współczynnik mieszania do zera dla jednego z dwóch Gaussian.
Dlatego wydaje się, że powinieneś być w stanie użyć algorytmu EM do oszacowania parametrów a następnie użyć Twierdzenia Wilksa, aby ustalić, czy prawdopodobieństwo danych pod jest znacznie większe niż pod . Istnieje niewielki skok wiary w założenie, że algorytm EM zbiega się tutaj z maksymalnym prawdopodobieństwem, ale jestem skłonny to zrobić.
Próbowałem tego w symulacji Monte Carlo, zakładając, że ma 3 stopnie swobody więcej niż (średnia i wariancja dla drugiego Gaussa i parametru mieszania). Kiedy symulowałem dane z , otrzymałem rozkład wartości P, który był zasadniczo nierównomierny i wzbogacony dla małych wartości P. (Jeśli EM nie byłby zbieżny z prawdziwym maksymalnym prawdopodobieństwem, można by oczekiwać dokładnie odwrotnej sytuacji). Co jest złego w moim zastosowaniu twierdzenia Wilksa, które tworzy to uprzedzenie?