Proponuję przyjrzeć się książkom na temat analizy danych kategorycznych (por. Analiza danych kategorycznych Alana Agrestiego, 2002), aby lepiej wyjaśnić i zrozumieć uporządkowaną regresję logistyczną . Na wszystkie zadane pytania odpowiada w zasadzie kilka rozdziałów takich książek. Jeśli jesteś zainteresowany tylko w R
powiązanych przykładach Rozszerzanie modele liniowe w R przez Juliana recz (CRC Press, 2008) jest doskonałym odniesienia.
Zanim odpowiem na pytania, uporządkowana regresja logistyczna jest przypadkiem wielomianowych modeli logitowych, w których kategorie są uporządkowane. Załóżmy, że mamy uporządkowane kategorie i indywidualnego I , z porządkowej reakcji Y ı ,
t i J = P ( Y i = j ) dla j = 1 , . . . , J . Z uporządkowaną odpowiedzią często łatwiej jest pracować ze skumulowanymi prawdopodobieństwami, γ i j = PJiYipij=P(Yi=j)j=1,...,J . Skumulowane prawdopodobieństwa są rosnące i niezmienne dla łączenia sąsiednich kategorii. Ponadto, γ i J = 1 , więc potrzebujemy tylkoprawdopodobieństwmodelu J - 1 .γij=P(Yi≤j)γiJ=1J–1
Teraz chcemy połączyć z współzmiennymi x . W twoim przypadku, ma 3 poziomy zamówione: , , . Bardziej sensowne jest traktowanie ich jako uporządkowanych niż nieuporządkowanych. Pozostałe zmienne są twoimi współzmiennymi. Konkretny model, który rozważasz, jest modelem proporcjonalnych szans i jest matematycznie równoważny z:γijxSat
low
medium
high
gdzie γ j ( x i ) = P ( Y i ≤ j | x i )
logit γj(xi)=θj−βTxi,j=1…J−1
where γj(xi)=P(Yi≤j|xi)
Jest to tak zwane, ponieważ szanse względne dla porównaniu x 1 i x 2 wynoszą:Y≤jx1x2
(γj(x1)1−γj(x1))/(γj(x2)1−γj(x2))=exp(−βT(x1−x2))
j
Teraz odpowiem na niektóre (1, 2, 4) pytania.
Jak zrozumieć, czy model dobrze pasował? Podsumowanie (house.plr) pokazuje Residual Deviance 3479.149 i AIC (Akaike Information Criterion?) z 3495.149. Czy to dobrze? W przypadku, gdy są one użyteczne jedynie jako miary względne (tj. Do porównania z dopasowaniem innego modelu), jaka jest dobra miara bezwzględna? Czy odchylenie resztkowe jest w przybliżeniu rozkładem chi-kwadrat? Czy można użyć „% poprawnie przewidywanych” na oryginalnych danych lub jakiejś weryfikacji krzyżowej? Jak najłatwiej to zrobić?
Dopasowany model polr
jest wyjątkowy glm
, więc wszystkie założenia, które dotyczą tradycyjnego glm
trzymania się tutaj. Jeśli odpowiednio zadbasz o parametry, możesz ustalić rozkład. W szczególności, aby sprawdzić, czy model jest dobry, czy nie, możesz wykonać test dobroci dopasowania , który przetestuje następujący zerowy (zauważ, że jest to subtelny, przeważnie chcesz odrzucić zerowy, ale tutaj nie chcesz odrzuć, aby uzyskać dobre dopasowanie):
Ho: current model is good enough
Można by użyć testu chi-kwadrat dla tego produktu. Wartość p otrzymuje się jako:
1-pchisq(deviance(house.plr),df.residual(house.plr))
Przez większość czasu chciałbyś uzyskać wartość p większą niż 0,05, aby nie odrzucać wartości zerowej, aby stwierdzić, że model jest dobrze dopasowany (poprawność filozoficzna jest tutaj ignorowana).
AIC powinno być wysokie, aby dobrze pasować, a jednocześnie nie chcesz mieć dużej liczby parametrów. stepAIC
to dobry sposób na sprawdzenie tego.
Tak, zdecydowanie możesz użyć weryfikacji krzyżowej, aby sprawdzić, czy prognozy się utrzymują. Patrz predict
funkcja (opcja:) type = "probs"
w ?polr
. Trzeba tylko zadbać o zmienne towarzyszące.
Jakie informacje zawiera pr? Strona pomocy w profilu jest ogólna i nie zawiera wskazówek dla polr
Jak wskazał @chl i inni, pr
zawiera wszystkie informacje potrzebne do uzyskania CI oraz inne informacje związane z prawdopodobieństwem polr fit
. Wszystkie glm
s są dopasowane przy użyciu iteracyjnie ważonej metody oszacowania najmniejszych kwadratów dla prawdopodobieństwa dziennika. W tej optymalizacji uzyskujesz wiele informacji (zobacz referencje), które będą potrzebne do obliczenia macierzy kowariancji wariancji, CI, wartości t itp. Obejmuje to wszystko.
Jak interpretować wartości t dla każdego współczynnika? W przeciwieństwie do niektórych modeli> pasuje, nie ma tutaj wartości P.
W przeciwieństwie do normalnego modelu liniowego (specjalnego glm
) inne glm
nie mają ładnego rozkładu t dla współczynników regresji. Dlatego wszystko, co możesz uzyskać, to oszacowania parametrów i ich asymptotyczna macierz wariancji kowariancji przy użyciu teorii maksymalnego prawdopodobieństwa. W związku z tym:
Variance(β^)=(XTWX)−1ϕ^
Oszacowanie podzielone przez błąd standardowy to, co BDR i WV nazywają wartością t ( MASS
tutaj zakładam konwencję). Jest to równoważne wartości t z normalnej regresji liniowej, ale nie podlega rozkładowi t. Używając CLT, jest on asymptotycznie normalnie rozłożony. Ale wolą nie używać tego przybliżonego (tak sądzę), stąd brak wartości p. (Mam nadzieję, że się nie mylę, a jeśli tak, mam nadzieję, że BDR nie jest na tym forum. Mam nadzieję, że ktoś mnie poprawi, jeśli się mylę).
methods("profile")
da ci metody (w tym przypadku S3) związane zprofile
obiektem R , wtedy zobaczysz, że istnieje specjalna metoda napolr
wyniki, którą możesz przeglądać online, piszącgetAnywhere("profile.polr")
w wierszu polecenia R.