Jak wybrać najlepsze dopasowanie bez nadmiernego dopasowania danych? Modelowanie rozkładu bimodalnego za pomocą N normalnych funkcji itp

Mam oczywiście bimodalny rozkład wartości, który staram się dopasować. Dane mogą być dobrze dopasowane do 2 normalnych funkcji (bimodalnych) lub 3 normalnych funkcji. Ponadto istnieje prawdopodobny fizyczny powód dopasowania danych do 3.

Im więcej parametrów zostanie wprowadzonych, tym lepsze będzie dopasowanie, ponieważ przy wystarczającej liczbie stałych można „ dopasować słonia ”.

Oto rozkład dopasowany do sumy 3 normalnych (gaussowskich) krzywych:

Dystrybucja z

Są to dane dla każdego dopasowania. Nie jestem pewien, jaki test powinienem tutaj zastosować, aby określić dopasowanie. Dane składają się z 91 punktów.

1 normalna funkcja:

RSS: 1.06231
X ^ 2: 3,1674
F.Test: 0,3092

2 normalne funkcje:

RSS: 0,010939
X ^ 2: 0,053896
F.Test: 0,97101

3 normalne funkcje:

RSS: 0,00536
X ^ 2: 0,02794
F.Test: 0,99249

Jaki test statystyczny można zastosować, aby ustalić, które z tych 3 pasowań jest najlepsze? Oczywiście, 1 normalne dopasowanie funkcji jest nieodpowiednie. Jak więc rozróżnić między 2 a 3?

Aby dodać, robię to głównie za pomocą Excela i małego Pythona; Nie znam jeszcze języka R ani innych języków statystycznych.

— MurphysLab
źródło

Sugeruje się użycie zredukowanego chi kwadrat X ^ 2 / (Nn-1), gdzie N jest liczbą punktów danych, a n jest liczbą dopasowanych parametrów. Jednak niewielka pensja (+/- 3) w stosunku do liczby punktów danych (91) intuicyjnie nie wydaje się szczególnie surową karą za dodanie kolejnego gaussa.

— MurphysLab

Możesz sprawdzić tę odpowiedź (na wypadek, gdybyś zdecydował się wybrać Rtrasę). Niektóre kryteria wyboru modelu są wymienione w tej odpowiedzi . Na koniec możesz rozważyć metody zespołowe , które pokrótce omówiłem w tej odpowiedzi , która zawiera również link do informacji skoncentrowanych na Pythonie. Więcej informacji na temat wyboru modelu i uśredniania można znaleźć w tej odpowiedzi .

— Aleksandr Blekh

Oto dwa sposoby rozwiązania problemu wyboru dystrybucji:

Do porównania modelu użyj miary, która karze model w zależności od liczby parametrów. Kryteria informacyjne to robią. Użyj kryterium informacyjnego, aby wybrać model, który chcesz zachować, wybierz model o najniższym kryterium informacyjnym (na przykład AIC). Ogólna zasada porównywania, czy różnica w AIC jest znacząca, polega na tym, że różnica w AIC jest większa niż 2 (nie jest to formalny test hipotez, patrz Testowanie różnicy w AIC dwóch nie zagnieżdżonych modeli ).

$2k - 2ln(L)$ $k$ $L$ $L = \max\limits_{\theta} L(\theta |x)$ $L(\theta |x) = Pr(x|\theta)$ $\Pr(x|\theta)$ $x$ $\theta$
Jeśli chcesz formalnego testu hipotez, możesz postępować na co najmniej dwa sposoby. Prawdopodobnie łatwiej jest dopasować swoje rozkłady przy użyciu części próbki, a następnie sprawdzić, czy rozkłady reszt są znacząco różne przy użyciu testu Chi-kwadrat lub Kolgomorov-Smirnov na pozostałych danych. W ten sposób nie używasz tych samych danych do dopasowania i przetestowania modelu, jak wspomniano w komentarzach AndrewM.

Można również wykonać test współczynnika wiarygodności z korektą rozkładu zerowego. Wersja tego jest opisana w Lo Y. i in. (2013) „Testowanie liczby składników w normalnej mieszaninie”. Biometrika, ale nie mam dostępu do tego artykułu, więc nie mogę podać więcej szczegółów, jak dokładnie to zrobić.

Tak czy inaczej, jeśli test nie jest znaczący, zachowaj rozkład o mniejszej liczbie parametrów, jeśli jest znaczący, wybierz ten o wyższej liczbie parametrów.

— Chris Novak
źródło

@Momo dzięki, zmieniłem to i dodałem równanie do AIC

— Chris Novak

Nie jestem w 100% pewien, ale standardowy AIC może nie działać zgodnie z oczekiwaniami w modelach mieszanin, ponieważ różne konfiguracje mieszanin mogą dawać ten sam model.

— Cagdas Ozgenc

Miałem na myśli to, że możesz zamienić 2 gaussów (ustawiając średnią / wariancję 1 na 2 i 2 na 1, a także na mikstury) i nadal uzyskać ten sam model. O ile mi wiadomo AIC nie działa zgodnie z oczekiwaniami w takich sytuacjach.

— Cagdas Ozgenc

@CagdasOzgenc Rozumiem twój punkt widzenia, ale wydaje się, że standardowe AIC i BIC okazały się odpowiednie do wyboru modelu w modelach mieszanin gaussowskich, patrz na przykład papierowy projekteuclid.org/download/pdf_1/euclid.aos/1176348772

— Chris Novak

@ChrisNovak tak, test współczynnika wiarygodności (z korektami zerowego rozkładu próbkowania z typowego z DOF równym różnicy w wymiarze przestrzeni parametrów) jest dobrym pomysłem. Nie wiem, jak skomplikowane są dostosowania, ale w tych przypadkach typowe są mieszaniny . Dostosowania są konieczne, ponieważ testujesz punkt na granicy przestrzeni parametrów.

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

— Andrew M