Co należy rozumieć, gdy mówimy, że mamy model nasycony?
Co należy rozumieć, gdy mówimy, że mamy model nasycony?
Odpowiedzi:
Model nasycony to taki, w którym istnieje tyle parametrów szacunkowych, ile punktów danych. Z definicji doprowadzi to do idealnego dopasowania, ale będzie mało przydatne statystycznie, ponieważ nie masz danych do oszacowania wariancji.
Na przykład, jeśli masz 6 punktów danych i dopasujesz do danych wielomian 5. rzędu, miałbyś model nasycony (jeden parametr dla każdej z 5 mocy niezależnej zmiennej plus jeden dla stałego składnika).
Model nasycony to model nadparametryzowany do tego stopnia, że zasadniczo interpoluje dane. W niektórych ustawieniach, takich jak kompresja i rekonstrukcja obrazu, niekoniecznie jest to zła rzecz, ale jeśli próbujesz zbudować model predykcyjny, jest to bardzo problematyczne.
Krótko mówiąc, modele nasycone prowadzą do predyktorów o bardzo dużej wariancji, które są wypychane przez hałas bardziej niż rzeczywiste dane.
Jako eksperyment myślowy, wyobraź sobie, że masz model nasycony, a dane zawierają szum, a następnie wyobraź sobie, że dopasowujesz model kilkaset razy, za każdym razem z inną realizacją hałasu, a następnie przewidujesz nowy punkt. Prawdopodobnie za każdym razem otrzymujesz radykalnie różne wyniki, zarówno pod względem dopasowania, jak i przewidywań (a modele wielomianowe są szczególnie rażące pod tym względem); innymi słowy, wariancja dopasowania i predyktora jest niezwykle wysoka.
Natomiast model, który nie jest nasycony, (jeśli zostanie skonstruowany rozsądnie) da dopasowania, które są ze sobą bardziej spójne, nawet przy różnej realizacji hałasu, a wariancja predyktora również zostanie zmniejszona.
Model jest nasycony wtedy i tylko wtedy, gdy ma tyle parametrów, ile ma punktów danych (obserwacji). Innymi słowy, w modelach nienasyconych stopnie swobody są większe od zera.
Zasadniczo oznacza to, że ten model jest bezużyteczny, ponieważ nie opisuje danych w bardziej oszczędny sposób niż surowe dane (a opisywanie danych w uproszczeniu jest generalnie pomysłem przy użyciu modelu). Ponadto modele nasycone mogą (ale niekoniecznie) zapewniać (bezużyteczne) idealne dopasowanie, ponieważ po prostu interpolują lub iterują dane.
Weźmy na przykład średnią jako model dla niektórych danych. Jeśli masz tylko jeden punkt danych (np. 5), używając średniej (tj. 5; zwróć uwagę, że średnia jest modelem nasyconym tylko dla jednego punktu danych), wcale nie pomaga. Jeśli jednak masz już dwa punkty danych (np. 5 i 7), używając średniej (tj. 6) jako modelu, otrzymasz bardziej oszczędny opis niż dane pierwotne.
Jak wszyscy wcześniej mówili, oznacza to, że masz tyle parametrów, ile punktów danych. Więc nie ma sensu testowania dopasowania. Nie oznacza to jednak, że „z definicji” model może idealnie pasować do dowolnego punktu danych. Mogę powiedzieć ci na podstawie własnego doświadczenia pracy z niektórymi modelami nasyconymi, które nie mogły przewidzieć określonych punktów danych. Jest to dość rzadkie, ale możliwe.
Inną ważną kwestią jest to, że nasycenie nie oznacza bezużyteczne. Na przykład w matematycznych modelach poznania człowieka parametry modelu są powiązane z określonymi procesami poznawczymi, które mają podłoże teoretyczne. Jeśli model jest nasycony, możesz przetestować jego adekwatność, przeprowadzając ukierunkowane eksperymenty z manipulacjami, które powinny wpływać tylko na określone parametry. Jeśli przewidywania teoretyczne pasują do zaobserwowanych różnic (lub ich braku) w oszacowaniach parametrów, można powiedzieć, że model jest poprawny.
Przykład: Wyobraź sobie na przykład model, który ma dwa zestawy parametrów, jeden do przetwarzania poznawczego, a drugi do reakcji motorycznych. Wyobraź sobie teraz, że masz eksperyment z dwoma warunkami, z których jeden jest zaburzony dla zdolności reagowania uczestników (mogą używać tylko jednej ręki zamiast dwóch), a w drugim stanie nie ma upośledzenia. Jeśli model jest prawidłowy, różnice w szacunkach parametrów dla obu warunków powinny wystąpić tylko w przypadku parametrów odpowiedzi silnika.
Należy również pamiętać, że nawet jeśli jeden model nie jest nasycony, może nadal nie być identyfikowalny, co oznacza, że różne kombinacje wartości parametrów dają ten sam wynik, co zagraża dopasowaniu każdego modelu.
Jeśli chcesz znaleźć więcej informacji na te tematy w ogólności, możesz rzucić okiem na następujące dokumenty:
Bamber, D., i van Santen, JPH (1985). Ile parametrów może mieć i nadal może być testowany model? Journal of Mathematical Psychology, 29, 443-473.
Bamber, D., i van Santen, JPH (2000). Jak ocenić testowalność i identyfikowalność modelu. Journal of Mathematical Psychology, 44, 20-40.
Twoje zdrowie
Jest to również przydatne, jeśli trzeba obliczyć AIC dla modelu quasi-prawdopodobieństwa. Oszacowanie dyspersji powinno pochodzić z modelu nasyconego. Podzielisz LL, którą dopasowujesz, przez szacowaną dyspersję z modelu nasyconego w obliczeniach AIC.
W kontekście SEM (lub analizy ścieżki) model nasycony lub model właśnie zidentyfikowany to model, w którym liczba wolnych parametrów dokładnie równa się liczbie wariancji i niepowtarzalnych kowariancji. Na przykład poniższy model jest modelem nasyconym, ponieważ istnieją 3 * 4/2 punkty danych (wariancje i niepowtarzalne kowariancje), a także 6 wolnych parametrów do oszacowania: