Miary złożoności modelu


19

Jak możemy porównać złożoność dwóch modeli o tej samej liczbie parametrów?

Edytuj 09/19 : Aby wyjaśnić, złożoność modelu jest miarą tego, jak trudno jest uczyć się na podstawie ograniczonych danych. Gdy dwa modele równie dobrze pasują do istniejących danych, model o mniejszej złożoności da mniejszy błąd w przyszłych danych. Gdy stosuje się aproksymacje, technicznie nie zawsze może to być prawda, ale jest to OK, jeśli w praktyce jest to prawda. Różne przybliżenia dają różne miary złożoności


czy możesz podać więcej informacji na temat dostępnych atrybutów modeli?
shabbychef

Jest to rodzaj otwartego pytania, więc moje pytanie brzmiałoby - jakiego rodzaju atrybutów potrzebuję, aby móc zmierzyć złożoność? Na najbardziej podstawowym poziomie model prawdopodobieństwa jest zbiorem rozkładów prawdopodobieństwa, a ja dopasowuję model do danych, wybierając najlepiej pasującego członka
Jarosława Bułatowa

3
Czym dokładnie jest „złożoność”? (To nie jest nonszalanckie pytanie!) Wobec braku formalnej definicji nie możemy mieć nadziei na dokonanie prawidłowych porównań czegoś.
whuber

O to właściwie pytam
Jarosław Bułatow

2
Ale czy nie możesz nam przynajmniej podpowiedzieć, jaki aspekt modelu próbujesz uchwycić słowem „złożoność”? Bez tego pytanie jest po prostu dwuznaczne, aby przyznać jedną rozsądną odpowiedź.
whuber

Odpowiedzi:


12

Oprócz różnych miar minimalnej długości opisu (np. Znormalizowane maksymalne prawdopodobieństwo, przybliżenie informacji Fishera) istnieją jeszcze dwie inne metody:

  1. Parametryczny Bootstrap . Jest o wiele łatwiejszy do wdrożenia niż wymagające środki MDL. Niezły artykuł autorstwa Wagenmakera i współpracowników:
    Wagenmakers, E.-J., Ratcliff, R., Gomez, P. i Iverson, GJ (2004). Ocena naśladowania modelu za pomocą parametrycznego ładowania początkowego . Journal of Mathematical Psychology , 48, 28-50.
    Streszczenie:

    Przedstawiamy ogólną procedurę próbkowania w celu kwantyfikacji mimikry modelu, zdefiniowaną jako zdolność modelu do uwzględnienia danych generowanych przez model konkurencyjny. Ta procedura próbkowania, zwana parametryczną metodą krzyżowego ładowania początkowego (PBCM; por. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrics 26 (1970) 23)), generuje rozkłady różnic w dobroci dopasowania oczekiwany w ramach każdego z konkurencyjnych modeli. W wersji PBCM opartej na danych, modele generujące mają określone wartości parametrów uzyskane przez dopasowanie rozważanych danych eksperymentalnych. Rozkłady różnic w informacjach na temat danych można porównać z zaobserwowaną różnicą w dobroci dopasowania, aby umożliwić kwantyfikację adekwatności modelu. W nieinformowanej wersji PBCM, modele generujące mają stosunkowo szeroki zakres wartości parametrów w oparciu o wcześniejszą wiedzę. Zastosowanie zarówno poinformowanych danych, jak i nieinformowanych danych PBCM ilustruje kilka przykładów.

    Aktualizacja: Ocena modelu naśladowania w prostym języku angielskim. Bierzesz jeden z dwóch konkurencyjnych modeli i losowo wybierasz zestaw parametrów dla tego modelu (dane są informowane lub nie). Następnie generujesz dane z tego modelu przy użyciu wybranego zestawu parametrów. Następnie pozwalasz dopasować oba modele do wygenerowanych danych i sprawdzić, który z dwóch modeli kandydujących daje lepsze dopasowanie. Jeśli oba modele są równie elastyczne lub złożone, model, z którego utworzono dane, powinien lepiej pasować. Jeśli jednak drugi model jest bardziej złożony, może lepiej pasować, chociaż dane zostały wygenerowane z innego modelu. Powtórz to kilka razy dla obu modeli (tj. Pozwól, aby oba modele wygenerowały dane i sprawdź, który z nich pasuje lepiej). Model „przewyższający” dane wytwarzane przez inny model jest bardziej złożony.

  2. Walidacja krzyżowa : jest również dość łatwa do wdrożenia. Zobacz odpowiedzi na to pytanie . Należy jednak pamiętać, że problem polega na tym, że wybór spośród zasady wycinania próbek (pomijanie, składanie w K itp.) Nie jest zasadą.


Nie do końca rozumiem „mimikę modelową”, ale wydaje się, że krzyżowa walidacja jedynie opóźnia zadanie oceny złożoności. Jeśli użyjesz danych do wybrania parametrów i modelu, jak w przypadku weryfikacji krzyżowej, istotne pytanie brzmi, jak oszacować ilość danych potrzebnych do tego, aby ten „meta” monter dobrze działał
Jarosław Bułatow

@Yaroslaw: Naprawdę nie rozumiem twojego problemu z walidacją krzyżową, ale szczerze mówiąc, nie jestem tam ekspertem. Jednak naprawdę chciałbym zwrócić uwagę na pomiar mimikry modeli. Dlatego zobacz moją zaktualizowaną odpowiedź.
Henrik

4

Myślę, że będzie to zależeć od faktycznej procedury dopasowania modelu. Jako ogólnie stosowaną miarę można rozważyć Uogólniony stopień swobody opisany w Ye 1998 - zasadniczo wrażliwość zmiany szacunków modelu na zaburzenie obserwacji - która działa całkiem dobrze, jako miarę złożoności modelu.


Hm ... w artykule chodzi o regresję, zastanawiam się, czy można to wykorzystać do dyskretnego oszacowania prawdopodobieństwa. Nie do końca rozumiem też motywację, którą on daje - gdf to stopień wrażliwości parametrów na niewielkie zmiany danych, ale dlaczego to takie ważne? Mógłbym wybrać inną parametryzację, w której niewielkie zmiany parametrów w oryginalnej parametryzacji odpowiadają dużym zmianom w nowej parametryzacji, więc będzie ona wydawać się bardziej wrażliwa na dane, ale jest to ten sam model
Jarosław Bułatow

Jarosław:> * Mogę wybrać inną parametryzację, w której niewielkie zmiany parametrów w oryginalnej parametryzacji odpowiadają dużym zmianom w nowej parametryzacji, więc będzie ona wydawać się bardziej wrażliwa na dane * czy możesz podać przykład (obejmujący afiniczny ekwiwalentny estymator)? Dzięki,
user603.

1
DoF w regresji liniowej sprawdza się na podstawie śladu matrycy kapelusza lub sumy wrażliwości - więc motywacja / koncepcja nie są aż tak daleko. Tibshirani i Knight zaproponowali Kryterium inflacji kowariancji, która uwzględnia kowariancje szacunków modelu zamiast wrażliwości. Wydaje się, że GDF zastosowano w wielu procedurach modelowych, takich jak progowanie wózka i falki (artykuł Ye na temat wyboru modeli adaptacyjnych zawiera więcej szczegółów), a także w metodach zespolonych do kontroli złożoności, ale nie znam żadnych dyskretnych przypadków szacowania. Może być warto spróbować ...
ars

Nie wiem o „afinicznych ekwiwalentnych estymatorach”, ale załóżmy, że zamiast tego polegamy na estymatorze maksymalnego prawdopodobieństwa. Niech q = f (p), gdzie f jest jakimś bijectionem. Niech p0, q0 reprezentują oszacowanie MLE w odpowiedniej parametryzacji. p0, q0 będą miały różne asymptotyczne wariancje, ale pod względem danych modelowych są one równoważne. Pytanie sprowadza się zatem do - w której parametryzacji jest wrażliwość parametrów reprezentatywnych dla oczekiwanego ryzyka?
Yaroslav Bulatov

4

Warto sprawdzić minimalną długość opisu (MDL) i minimalną długość wiadomości (MML).

Jeśli chodzi o MDL, prosty artykuł ilustrujący procedurę znormalizowanego maksymalnego prawdopodobieństwa (NML) oraz asymptotyczne przybliżenie to:

S. de Rooij i P. Grünwald. Badanie empiryczne wyboru modelu minimalnej długości opisu o nieskończonej złożoności parametrycznej. Journal of Mathematical Psychology, 2006, 50, 180–192

Patrzą tutaj na złożoność modelu rozkładu geometrycznego vs. rozkład Poissona. Doskonały (bezpłatny) samouczek na temat MDL można znaleźć tutaj .

Alternatywnie można znaleźć tutaj artykuł na temat złożoności rozkładu wykładniczego badanego zarówno w MML, jak i MDL . Niestety, nie ma aktualnego samouczka na temat MML, ale książka jest doskonałym materiałem referencyjnym i bardzo polecana.


1
Przeczytałem ten artykuł i wydaje się, że złożoność stochastyczna rozwiązuje problem braku możliwości rozróżnienia modeli o takich samych wymiarach, ale wprowadza problem polegający na tym, że czasami nie jest w stanie odróżnić modeli o różnych wymiarach. Rozkładowi geometrycznemu przypisuje się nieskończoną złożoność, z pewnością nie to, czego byśmy oczekiwali od tak prostego modelu!
Yaroslav Bulatov

Bardzo dobra uwaga na temat nieskończonej złożoności stochastycznej (SC). Rozwiązania problemu nieskończonego SC istnieją, ale nie są zbyt eleganckie; Renormalizacja Rissanen działa dobrze w modelach liniowych, ale nie jest łatwa do rozwiązania w przypadku problemu Poissona / Geometrycznego. Kodowanie MML (lub SMML) danych Poisson / Geometric jest jednak w porządku.
emakalic

3

Minimalna długość opisu może być ścieżką wartą uwagi.


2
Krótka uwaga: minimalna długość opisu jest bardzo mocna i użyteczna, ale uzyskanie wyników może zająć całe lata, szczególnie przy użyciu znormalizowanego maksymalnego prawdopodobieństwa w przypadku większych zestawów danych. Kiedyś potrzebowałem 10 dni na uruchomienie kodu FORTRAN, aby uzyskać go tylko dla jednego modelu
Dave Kellen,

2

Przez „złożoność modelu” zwykle rozumie się bogactwo przestrzeni modelu. Należy pamiętać, że ta definicja nie zależy od danych. W przypadku modeli liniowych bogactwo przestrzeni modelu mierzy się w trywialny sposób wraz ze zmniejszeniem przestrzeni. To właśnie niektórzy autorzy nazywają „stopniami swobody” (chociaż historycznie stopnie swobody były zarezerwowane dla różnicy między przestrzenią modelu a przestrzenią próbki). W przypadku modeli nieliniowych kwantyfikacja bogactwa przestrzeni jest mniej prosta. Uogólniony stopień swobody (patrz odpowiedź arsa) jest taką miarą. Jest to rzeczywiście bardzo ogólne i może być używane w każdej „dziwnej” przestrzeni modelu, takiej jak drzewa, KNN i podobne. Wymiar VC jest inny środek.

Jak wspomniano powyżej, ta definicja „złożoności” jest niezależna od danych. Tak więc dwa modele o tej samej liczbie parametrów będą zazwyczaj miały tę samą „złożoność”.


1

Od komentarzy Jarosława do odpowiedzi Henrika:

ale walidacja krzyżowa wydaje się po prostu opóźniać zadanie oceny złożoności. Jeśli użyjesz danych do wybrania parametrów i modelu, jak w przypadku weryfikacji krzyżowej, odpowiednim pytaniem staje się, w jaki sposób oszacować ilość danych potrzebnych do tego, aby ten „meta” monter działał dobrze

kkkCV(k)kk

Można nawet nadać temu „smaku istotności”, ponieważ wynik procedury jest bezpośrednio pod względem (jednostek) różnicy w błędzie prognozowania poza próbą.


1
Zgodziłbym się, że Cross Validation rozwiązuje problem pomiaru złożoności modelu. Może zadaję złe pytanie, ponieważ praktycznym pytaniem jest złożoność próby dopasowania. Uczeń z walidacją krzyżową wypróbowałby różne modele i wybrał ten z najniższym błędem walidacji krzyżowej. Teraz pytanie brzmi - czy ten uczący się jest bardziej skłonny do przebrnięcia niż ten, który pasuje do jednego modelu z najwyższym prawdopodobieństwem?
Yaroslav Bulatov

Jarosław Bułatow:> tak, ale możesz używać ML tylko do porównywania modeli zagnieżdżonych. O ile podałeś (w pytaniu) wspomniane modele o tej samej liczbie parametrów, nie można ich zagnieżdżać.
user603,

Inną kwestią jest to, że wzajemna weryfikacja nie pogłębia naszego zrozumienia złożoności modelu. Środki takie jak AIC / BIC wyjaśniają, że wiele parametrów zachęca do nadmiernego dopasowania. Teraz pojawia się pytanie - jakie aspekty modelu oprócz wymiaru zwiększają zdolność do przerzucania?
Yaroslav Bulatov

Jarosław:> Znowu bardzo dobra uwaga.
user603,

Jeśli nadmierne dopasowanie jest tendencją procedury dopasowywania modelu do dopasowania szumu oprócz sygnału, wówczas możemy spojrzeć na daną procedurę, aby zobaczyć, gdzie mogą powstać takie tendencje. Być może z powodu braku wyobraźni lub wiedzy, rozważając kilka różnych procedur, nie mogłem sprowadzić tego do czegoś, czego nie można przekształcić w „liczbę parametrów” (lub „efektywną liczbę parametrów”). Moglibyśmy to odwrócić i zapytać: wszystko inne równe, co się stanie, gdy wprowadzimy szum do naszych danych? Następnie dochodzimy do takich środków jak GDF Ye.
ars

0

Co z kryterium informacyjnym dla porównania modeli? Zobacz np. Http://en.wikipedia.org/wiki/Akaike_information_criterion

Złożoność modelu jest tutaj liczbą parametrów modelu.


AIC nie jest miarą złożoności modelu.
Sven Hohenstein

@SvenHohenstein, z ostatniego zdania, rozumiem, że nie sugeruje on, że sam AIC jest miarą złożoności modelu. Brause42, zauważ, że pytanie dotyczy w szczególności modeli o tej samej liczbie parametrów. W ten sposób AIC zredukuje się do SSE, dewiacji lub cokolwiek innego.
gung - Przywróć Monikę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.