To, co zrobiłeś, to regresja logistyczna . Można to zrobić w zasadzie w każdym oprogramowaniu statystycznym, a wyniki będą podobne (przynajmniej pod względem treści, choć prezentacja może się różnić). Na stronie pomocy UCLA dotyczącej doskonałych statystyk znajduje się przewodnik po regresji logistycznej z R. Jeśli nie jesteś tego zaznajomiony, moja odpowiedź tutaj: różnica między modelami logit i probit może pomóc ci zrozumieć, o czym jest LR (chociaż jest napisany w innym kontekście).
Wygląda na to, że masz dwa modele, a ja skupię się przede wszystkim na jednym. Ponadto, wydaje się być błąd w kopiowaniu i wklejaniu modelu lub wyjścia, więc będę wymieniać leaves.presence
z Area
na wyjściu, aby to zgodne z modelem. Oto model, o którym mówię (zauważ, że dodałem (link="logit")
, co sugeruje family=binomial
; patrz ? Glm and ? Family ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Przejdźmy przez ten wynik (zauważ, że zmieniłem nazwę zmiennej w drugim wierszu poniżej Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Tak jak istnieją reszty w regresji liniowej (OLS), mogą istnieć reszty w regresji logistycznej i innych uogólnionych modelach liniowych. Są jednak bardziej skomplikowane, gdy zmienna odpowiedzi nie jest ciągła. GLiM mogą mieć pięć różnych typów reszt, ale to, co znajduje się na liście standardowych to reszty odchyleń. ( Wartości dewiacji i dewiacji są bardziej zaawansowane, więc powiem krótko; jeśli ta dyskusja jest nieco trudna do naśladowania, nie martwiłbym się zbytnio, możesz ją pominąć):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Dla każdego punktu danych użytego w modelu obliczane jest odchylenie związane z tym punktem. Po wykonaniu tego dla każdego punktu masz zestaw takich reszt, a powyższy wynik jest po prostu nieparametrycznym opisem ich rozkładu.
Następnie widzimy informacje o zmiennych towarzyszących, którymi ludzie są zwykle zainteresowani:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Area
Estimate
leaves.presence
Area
leaves.presence
Area
0.) W następnej kolumnie widzimy błąd standardowy związany z tymi szacunkami. Oznacza to, że są one szacunkiem, o ile średnio te szacunki odskoczyłyby, gdyby badanie zostało ponownie przeprowadzone identycznie, ale z nowymi danymi w kółko. (Jeśli nie znasz się na idei błędu standardowego, może ci pomóc przeczytać moją odpowiedź tutaj: jak interpretować współczynniki błędów standardowych w regresji liniowej .) Gdybyśmy podzielili oszacowanie przez błąd standardowy, uzyskać iloraz, który zakłada się, że jest normalnie dystrybuowany z wystarczająco dużymi próbkami Ta wartość jest wymieniona w sekcji z value
. Poniżej Pr(>|z|)
wymieniono dwustronne wartości pktóre odpowiadają tym wartościom Z w standardowym rozkładzie normalnym. Wreszcie istnieją tradycyjne gwiazdy znaczenia (i zwróć uwagę na klucz pod tabelą współczynników).
Dispersion
Linia jest drukowana domyślnie z Glims, ale nie dodaje wiele informacji tutaj (jest to ważniejsze z modelami zliczania, EG). Możemy to zignorować.
Na koniec otrzymujemy informacje o modelu i jego dobrym dopasowaniu:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
W linii missingness
często brakuje. Pojawia się tu, bo miał 314 obserwacji, dla których albo leaves.presence
, Area
lub obie brakowało. Te częściowe obserwacje nie zostały wykorzystane do dopasowania modelu.
Residual deviance
Null deviance
Estimate
Area
fa
AIC jest inna miara dobroci dopasowania, która bierze pod uwagę zdolność dopasowania modelu do danych. Jest to bardzo przydatne, gdy porównuje się dwa modele, w których można lepiej pasować, ale być może tylko dlatego, że jest bardziej elastyczny, a zatem lepiej pasuje do dowolnych danych. Ponieważ masz tylko jeden model, jest to mało pouczające.
Odniesienie Fisher scoring iterations
dotyczy sposobu oszacowania modelu. Model liniowy można dopasować, rozwiązując równania w postaci zamkniętej. Niestety nie można tego zrobić w przypadku większości GLiM, w tym regresji logistycznej. Zamiast tego stosuje się podejście iteracyjne ( domyślnie algorytm Newtona-Raphsona ). Luźno model jest dopasowany w oparciu o domysły na temat szacunków. Algorytm następnie rozgląda się, aby sprawdzić, czy dopasowanie poprawiłoby się przy użyciu różnych szacunków. Jeśli tak, przesuwa się w tym kierunku (powiedzmy, używając wyższej wartości do oszacowania), a następnie ponownie pasuje do modelu. Algorytm zatrzymuje się, gdy nie widzi, że ponowne poruszenie przyniosłoby znacznie dodatkową poprawę. Ten wiersz informuje o liczbie iteracji przed zatrzymaniem procesu i wyświetleniu wyników.
W odniesieniu do drugiego modelu i listy wyników, jest to tylko inny sposób wyświetlania wyników. W szczególności te
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
są tego samego rodzaju szacunkami omówionymi powyżej (aczkolwiek z innego modelu i przedstawionymi z mniejszą ilością informacji uzupełniających).