Niedawno zacząłem używać wygładzania ważności Pareto z pominięciem krzyżowej walidacji (PSIS-LOO), opisanej w tych artykułach:
- Vehtari, A., i Gelman, A. (2015). Pareto wygładził próbkowanie ważności. prefiks arXiv ( link ).
- Vehicletari, A., Gelman, A., i Gabry, J. (2016). Praktyczna ocena modelu Bayesa przy użyciu krzyżowej weryfikacji typu „out-one-out” i WAIC. prefiks arXiv ( link )
Jest to bardzo kuszące podejście do oceny modelu poza próbą, ponieważ pozwala wykonać LOO-CV za pomocą jednego przebiegu MCMC i jest rzekomo lepsze niż istniejące kryteria informacyjne, takie jak WAIC.
PSIS-LOO posiada diagnostykę, która informuje, czy przybliżenie jest wiarygodne, a mianowicie podaje szacunkowe wykładniki rozkładów Pareto dopasowanych do ogonów rozkładów empirycznych ważeń ważenia (jedna waga na punkt danych). Krótko mówiąc, jeśli szacowana waga , mogą się zdarzyć złe rzeczy.
Niestety, stwierdziłem, że stosując tę metodę do mojego problemu, w przypadku większości interesujących modeli uważam, że duża część . Nic dziwnego, że niektóre z raportowanych prawdopodobieństw logów LOO były w oczywisty sposób bezsensowne (w porównaniu z innymi zestawami danych). Jako podwójną kontrolę przeprowadziłem tradycyjną (i czasochłonną) 10-krotną walidację krzyżową, stwierdzając, że rzeczywiście w powyższym przypadku PSIS-LOO dawał strasznie złe wyniki (z drugiej strony, wyniki były bardzo dobrze zgodne z 10 -fold CV dla modeli, w których wszystkie ). Dla przypomnienia korzystam z implementacji MATLAB PSIS-LOO firmy Aki Vehtari.
Może mam po prostu bardzo pecha, ponieważ mój obecny i pierwszy problem, w którym stosuję tę metodę, jest „trudny” dla PSIS-LOO, ale podejrzewam, że ten przypadek może być stosunkowo częsty. W przypadku takich przypadków, jak mój, papier Vehicle, Carman & Gabry mówi po prostu:
Nawet jeśli oszacowanie PSIS ma skończoną wariancję, gdy , użytkownik powinien rozważyć próbkowanie bezpośrednio z dla problematycznego , użyj -fold cross- sprawdzanie poprawności lub użyj bardziej niezawodnego modelu.
Są to oczywiste, ale niezbyt idealne rozwiązania, ponieważ są one czasochłonne lub wymagają dodatkowego majstrowania (doceniam, że MCMC i ocena modelu polegają na majstrowaniu, ale im mniej tym lepiej).
Czy istnieje jakaś ogólna metoda, którą możemy zastosować wcześniej, aby zapobiec awarii PSIS-LOO? Mam kilka wstępnych pomysłów, ale zastanawiam się, czy istnieje już rozwiązanie empiryczne, które ludzie przyjęli.