Czy posunięcie się za daleko byłoby stwierdzić, że potwierdza mój wybór dystrybucji?
Zależy to od tego, co dokładnie rozumiesz przez „sprawdzanie poprawności”, ale powiedziałbym „tak, to idzie za daleko” w taki sam sposób, w jaki nie można tak naprawdę powiedzieć, że „zero jest pokazane jako prawdziwe”, (zwłaszcza z zerowymi punktami, ale przynajmniej w pewnym sensie bardziej ogólnie). Możesz tylko powiedzieć „no cóż, nie mamy mocnych dowodów na to, że to źle”. Ale w każdym razie nie oczekujemy, że nasze modele będą idealne, są to modele . Liczy się, jak powiedział Box & Draper, „ jak bardzo muszą się mylić, aby nie być przydatni? ”
Każde z dwóch poprzednich zdań:
To wydaje mi się sugerować (dla mnie), że wybór rozkładu Gaussa był całkiem rozsądny. Lub przynajmniej, że reszty są zgodne z rozkładem zastosowanym w moim modelu.
o wiele dokładniej opisz to, co wskazuje twoja diagnostyka - nie to, że model Gaussa z łączem logicznym miał rację - ale że był rozsądny lub zgodny z danymi.
Wybrałem funkcję log log, ponieważ moja zmienna odpowiedzi jest zawsze pozytywna, ale chciałbym pewnego rodzaju potwierdzenie, że był to dobry wybór.
Jeśli wiesz, że to musi być dodatnie, to jego średnia musi być dodatnia. Rozsądnie jest wybrać model, który przynajmniej jest z tym zgodny. Nie wiem, czy to dobry wybór (może istnieć znacznie lepszy wybór), ale rozsądnie jest to zrobić; to może być mój punkt wyjścia. [Jeśli jednak sama zmienna jest koniecznie dodatnia, moja pierwsza myśl byłaby raczej Gamma z log-link, a nie Gaussa. „Niezbędnie dodatni” sugeruje zarówno skośność, jak i wariancję, która zmienia się wraz ze średnią.]
Q2: Czy są jakieś testy, takie jak sprawdzenie resztek dla wyboru dystrybucji, które mogą wspierać mój wybór funkcji łącza?
Brzmi to tak, jakbyś nie miał na myśli „testu” jak w „formalnym teście hipotez”, a raczej „kontroli diagnostycznej”.
W obu przypadkach odpowiedź brzmi: tak, są.
Jednym z formalnych testów hipotez jest test dobroci łącza Pregibona [1].
Polega to na osadzeniu funkcji link w rodzinie Box-Cox w celu przeprowadzenia testu hipotez parametru Box-Cox.
Zobacz także krótkie omówienie testu Pregibona w Breslow (1996) [2] ( patrz s. 14 ).
Jednak zdecydowanie radzę trzymać się drogi diagnostycznej. Jeśli chcesz sprawdzić funkcję łącza, w zasadzie zapewniasz to w skali łącza,η= g( μ )x
rW.ja= ( yja- μ^ja) ( ∂η∂μ)
(do którego skłaniam się w tej ocenie), a może patrząc na odchylenia od liniowości w resztach cząstkowych, z jednym wykresem dla każdego predyktora (patrz na przykład Hardin i Hilbe, Uogólnione modele liniowe i rozszerzenia, wydanie drugie , sekcja 4.5 .4 p54, dla definicji),
rT.k i= ( yja- μ^ja) ( ∂η∂μ) + xja kβ^k
= rW.ja+ xja kβ^k
W przypadkach, w których dane dopuszczają transformację za pomocą funkcji link, możesz szukać liniowości w taki sam sposób, jak w przypadku regresji liniowej (chociaż mój pozostawiłeś skośność i być może heteroskedastyczność).
W przypadku predyktorów jakościowych wybór funkcji łącza jest bardziej kwestią wygody lub interpretacji, dopasowanie powinno być takie samo (więc nie trzeba ich oceniać).
Możesz również oprzeć diagnozę na podejściu Pregibona.
Nie stanowią one wyczerpującej listy; można znaleźć inne omawiane diagnostyki.
[To powiedziawszy, zgadzam się z oceną Gunga, że wybór funkcji łącza powinien początkowo opierać się na takich kwestiach, jak to możliwe teoretyczne.]
Zobacz także część dyskusji w tym poście , która jest przynajmniej częściowo istotna.
[1]: Pregibon, D. (1980),
„Dobroć testów połączeń dla uogólnionych modeli liniowych”,
Journal of Royal Statistics Society. Seria C (Statystyka stosowana) ,
t. 29, nr 1, s. 15–23.
[2]: Breslow NE (1996),
„Uogólnione modele liniowe: sprawdzanie założeń i wzmacnianie wniosków”,
Statistica Applicata 8 , 23-41.
pdf