GLM: weryfikacja wyboru dystrybucji i funkcji łącza


14

Mam uogólniony model liniowy, który przyjmuje rozkład Gaussa i funkcję łączenia logów. Po dopasowaniu modelu sprawdzam wartości resztkowe: wykres QQ, wartości resztowe w stosunku do wartości przewidywanych, histogram reszt (potwierdzając, że należy zachować odpowiednią ostrożność). Wszystko wygląda dobrze. To wydaje mi się sugerować (dla mnie), że wybór rozkładu Gaussa był całkiem rozsądny. Lub przynajmniej, że reszty są zgodne z rozkładem zastosowanym w moim modelu.

P1 : Czy posunięcie się za daleko byłoby stwierdzić, że potwierdza mój wybór dystrybucji?

Wybrałem funkcję log log, ponieważ moja zmienna odpowiedzi jest zawsze pozytywna, ale chciałbym pewnego rodzaju potwierdzenie, że był to dobry wybór.

Q2 : Czy są jakieś testy, takie jak sprawdzenie resztek dla wyboru dystrybucji, które mogą wspierać mój wybór funkcji łącza? (Wybór funkcji łącza wydaje mi się nieco arbitralny, ponieważ jedyne wskazówki, jakie mogę znaleźć, są dość niejasne i niepewne, prawdopodobnie z dobrego powodu.)


2
Pytanie 1 Możesz wypróbować inne dystrybucje i sprawdzić, czy działają lepiej. Q2 Wybór linku dziennika w celu zapewnienia pozytywnych prognoz nie wydaje mi się arbitralny. To uzasadnienie. Ale czy otrzymasz negatywne prognozy z linkiem tożsamości i dane, które możesz z kolei sprawdzić. Podsumowując: nie możesz być pewien, że inne modele nie byłyby lepsze, dopóki ich nie wypróbujesz.
Nick Cox,

1
Yexp(η)R2)

2
R2)

Odpowiedzi:


13
  1. Jest to wariant często zadawanego pytania dotyczącego tego, czy można potwierdzić hipotezę zerową. W twoim przypadku zerą byłoby, że reszty są gaussowskie, a wizualna inspekcja twoich wykresów (wykresy qq, histogramy itp.) Stanowi „test”. (Ogólny przegląd kwestii twierdzenia o wartości zerowej może pomóc przeczytać moją odpowiedź tutaj: dlaczego statystycy twierdzą, że nieistotny wynik oznacza „nie można odrzucić wartości zerowej” w przeciwieństwie do przyjęcia hipotezy zerowej? ) W twoim konkretnym przypadku możesz powiedzieć, że wykresy pokazują, że twoje resztki są zgodne z twoim założeniem normalności, ale nie „potwierdzają” założenia.

  2. Można dopasować model używając różnych funkcji link i porównać je, ale nie jest to test pojedynczej funkcji Link w izolacji (jest to oczywiście błędne, patrz @ Glen_b za odpowiedź ). W mojej odpowiedzi na Różnice między modelami logit i probit (które mogą być warte przeczytania, chociaż nie są takie same), argumentuję, że funkcje łączenia powinny być wybierane na podstawie:

    1. Znajomość rozkładu odpowiedzi,
    2. Rozważania teoretyczne, oraz
    3. Empiryczne dopasowanie do danych.

    YYod stania się ujemnym, indukuje również określony kształt relacji krzywoliniowej. Standardowy wykres wartości resztkowych w stosunku do dopasowanych (być może z nałożonym pasowaniem lessowym) pomoże ci ustalić, czy wewnętrzna krzywizna twoich danych jest rozsądnie zgodna z określoną krzywizną narzuconą przez łącze dziennika. Jak już wspomniałem, możesz także wypróbować dowolną inną transformację, która spełnia twoje teoretyczne kryteria, i porównać bezpośrednio dwa pasowania.


16

Czy posunięcie się za daleko byłoby stwierdzić, że potwierdza mój wybór dystrybucji?

Zależy to od tego, co dokładnie rozumiesz przez „sprawdzanie poprawności”, ale powiedziałbym „tak, to idzie za daleko” w taki sam sposób, w jaki nie można tak naprawdę powiedzieć, że „zero jest pokazane jako prawdziwe”, (zwłaszcza z zerowymi punktami, ale przynajmniej w pewnym sensie bardziej ogólnie). Możesz tylko powiedzieć „no cóż, nie mamy mocnych dowodów na to, że to źle”. Ale w każdym razie nie oczekujemy, że nasze modele będą idealne, są to modele . Liczy się, jak powiedział Box & Draper, „ jak bardzo muszą się mylić, aby nie być przydatni?

Każde z dwóch poprzednich zdań:

To wydaje mi się sugerować (dla mnie), że wybór rozkładu Gaussa był całkiem rozsądny. Lub przynajmniej, że reszty są zgodne z rozkładem zastosowanym w moim modelu.

o wiele dokładniej opisz to, co wskazuje twoja diagnostyka - nie to, że model Gaussa z łączem logicznym miał rację - ale że był rozsądny lub zgodny z danymi.

Wybrałem funkcję log log, ponieważ moja zmienna odpowiedzi jest zawsze pozytywna, ale chciałbym pewnego rodzaju potwierdzenie, że był to dobry wybór.

Jeśli wiesz, że to musi być dodatnie, to jego średnia musi być dodatnia. Rozsądnie jest wybrać model, który przynajmniej jest z tym zgodny. Nie wiem, czy to dobry wybór (może istnieć znacznie lepszy wybór), ale rozsądnie jest to zrobić; to może być mój punkt wyjścia. [Jeśli jednak sama zmienna jest koniecznie dodatnia, moja pierwsza myśl byłaby raczej Gamma z log-link, a nie Gaussa. „Niezbędnie dodatni” sugeruje zarówno skośność, jak i wariancję, która zmienia się wraz ze średnią.]

Q2: Czy są jakieś testy, takie jak sprawdzenie resztek dla wyboru dystrybucji, które mogą wspierać mój wybór funkcji łącza?

Brzmi to tak, jakbyś nie miał na myśli „testu” jak w „formalnym teście hipotez”, a raczej „kontroli diagnostycznej”.

W obu przypadkach odpowiedź brzmi: tak, są.

Jednym z formalnych testów hipotez jest test dobroci łącza Pregibona [1].

Polega to na osadzeniu funkcji link w rodzinie Box-Cox w celu przeprowadzenia testu hipotez parametru Box-Cox.

Zobacz także krótkie omówienie testu Pregibona w Breslow (1996) [2] ( patrz s. 14 ).

Jednak zdecydowanie radzę trzymać się drogi diagnostycznej. Jeśli chcesz sprawdzić funkcję łącza, w zasadzie zapewniasz to w skali łącza,η=sol(μ)x

rjaW.=(yja-μ^ja)(ημ)

(do którego skłaniam się w tej ocenie), a może patrząc na odchylenia od liniowości w resztach cząstkowych, z jednym wykresem dla każdego predyktora (patrz na przykład Hardin i Hilbe, Uogólnione modele liniowe i rozszerzenia, wydanie drugie , sekcja 4.5 .4 p54, dla definicji),

rkjaT.=(yja-μ^ja)(ημ)+xjakβ^k

=rjaW.+xjakβ^k

W przypadkach, w których dane dopuszczają transformację za pomocą funkcji link, możesz szukać liniowości w taki sam sposób, jak w przypadku regresji liniowej (chociaż mój pozostawiłeś skośność i być może heteroskedastyczność).

W przypadku predyktorów jakościowych wybór funkcji łącza jest bardziej kwestią wygody lub interpretacji, dopasowanie powinno być takie samo (więc nie trzeba ich oceniać).

Możesz również oprzeć diagnozę na podejściu Pregibona.

Nie stanowią one wyczerpującej listy; można znaleźć inne omawiane diagnostyki.

[To powiedziawszy, zgadzam się z oceną Gunga, że ​​wybór funkcji łącza powinien początkowo opierać się na takich kwestiach, jak to możliwe teoretyczne.]

Zobacz także część dyskusji w tym poście , która jest przynajmniej częściowo istotna.

[1]: Pregibon, D. (1980),
„Dobroć testów połączeń dla uogólnionych modeli liniowych”,
Journal of Royal Statistics Society. Seria C (Statystyka stosowana) ,
t. 29, nr 1, s. 15–23.

[2]: Breslow NE (1996),
„Uogólnione modele liniowe: sprawdzanie założeń i wzmacnianie wniosków”,
Statistica Applicata 8 , 23-41.
pdf

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.