To dobre pytanie, ponieważ „różne ilości” nie wydają się dobrym wytłumaczeniem.
Istnieją dwa ważne powody, aby zachować ostrożność podczas używania R2aby porównać te modele: jest zbyt surowe (tak naprawdę nie ocenia dobroci dopasowania ) i będzie nieodpowiednie dla co najmniej jednego z modeli. Ta odpowiedź rozwiązuje ten drugi problem.
Traktowanie teoretyczne
R2porównuje wariancję reszt modelu z wariancją odpowiedzi. Wariancja to średnie kwadratowe odchylenie addytywne od dopasowania. Jako takie możemy zrozumiećR2 jako porównanie dwóch modeli odpowiedzi y.
Model „bazowy” to
yi=μ+δi(1)
gdzie μ jest parametrem (teoretyczna średnia odpowiedź) i δi są niezależnymi losowymi „błędami”, z których każdy ma zerową średnią i wspólną wariancję τ2.
Model regresji liniowej wprowadza wektoryxi jako zmienne objaśniające:
yi=β0+xiβ+εi.(2)
Numer β0 i wektor βsą parametrami (punkt przecięcia i „nachylenie”). Theεi ponownie są to niezależne losowe błędy, każdy o zerowej średniej i wspólnej wariancji σ2.
R2 szacuje zmniejszenie wariancji, τ2−σ2, w porównaniu do pierwotnej wariancji τ2.
Kiedy bierzesz logarytmy i używasz najmniejszych kwadratów, aby dopasować model , domyślnie porównujesz relację formy
log(yi)=ν+ζi(1a)
do jednego z formularzy
log(yi)=γ0+xiγ+ηi.(2a)
Są jak modele (1) i (2)ale z odpowiedziami dziennika. Nie są one jednak równoważne z pierwszymi dwoma modelami. Na przykład potęgowanie obu stron(2a) dałbym
yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).
Warunki błędu exp(ηi)teraz pomnóż podstawową relacjęyi=exp(γ0+xiγ). W konsekwencji występują wariancje odpowiedzi
Var(yi)=exp(γ0+xiγ)2Var(eηi).
Rozbieżności zależą od xi. To nie jest model(2), który zakłada, że wszystkie wariancje są równe stałej σ2.
Zwykle tylko jeden z tych zestawów modeli może być rozsądnym opisem danych. Stosowanie drugiego zestawu(1a) i (2a) kiedy pierwszy zestaw (1) i (2)jest dobrym modelem, lub pierwszy, gdy drugi jest dobry, sprowadza się do pracy z nieliniowym, heteroscedastycznym zestawem danych, który dlatego powinien być źle dopasowany do regresji liniowej. Gdy zachodzi którakolwiek z tych sytuacji, możemy oczekiwać, że lepszy model pokaże większyR2. A jeśli tak nie jest? Czy nadal możemy oczekiwać większegoR2 aby pomóc nam zidentyfikować lepszy model?
Analiza
W pewnym sensie nie jest to dobre pytanie, ponieważ jeśli żaden model nie jest odpowiedni, powinniśmy znaleźć trzeci model. Jednak kwestia przed nami dotyczy użytecznościR2pomagając nam w podjęciu tej determinacji. Co więcej, wiele osób myśli najpierw o kształcie relacji między nimix i y- czy jest liniowy, logarytmiczny, czy jest czymś innym - bez obawy o charakterystykę błędów regresji εi lub ηi. Rozważmy zatem sytuację, w której nasz model poprawia związek, ale myli się co do jego struktury błędów lub odwrotnie .
Taki model (który często występuje) jest najmniejszym kwadratem dopasowanym do relacji wykładniczej,
yi=exp(α0+xiα)+θi.(3)
Teraz logarytm z yjest funkcją liniowąx, jak w (2a), ale warunki błęduθisą addytywne , jak w(2). W takich sprawachR2 może nas wprowadzić w błąd przy wyborze modelu z niewłaściwym stosunkiem między x i y.
Oto ilustracja modelu (3). Tam są300 obserwacje dla xi (1 wektor równo rozdzielony między 1.0 i 1.6). Lewy panel pokazuje oryginał(x,y) dane, podczas gdy prawy panel pokazuje (x,log(y))przekształcone dane. Przerywane czerwone linie pokazują prawdziwą zależność, podczas gdy ciągłe niebieskie linie pokazują pasowanie najmniejszych kwadratów. Dane i prawdziwa relacja są takie same w obu panelach: różnią się tylko modele i ich dopasowanie.
Dopasowanie do logarytmicznych odpowiedzi po prawej wyraźnie jest dobre: prawie pokrywa się z prawdziwą relacją i obie są liniowe. Dopasowanie do pierwotnych odpowiedzi po lewej wyraźnie jest gorsze: jest liniowe, podczas gdy prawdziwa relacja jest wykładnicza. Niestety ma znacznie większą wartośćR2: 0.70 w porównaniu do 0.56. Dlatego nie powinniśmy ufaćR2aby doprowadzić nas do lepszego modelu. Dlatego nie powinniśmy być zadowoleni z dopasowania, nawet gdyR2 jest „wysoki” (aw wielu aplikacjach wartość 0.70 byłoby rzeczywiście uważane za wysokie).
Nawiasem mówiąc, lepszym sposobem oceny tych modeli są testy poprawności dopasowania (które wskazywałyby na wyższość modelu logu po prawej) i wykresy diagnostyczne dla stacjonarności reszt (które uwypukliłyby problemy w obu modelach). Takie oceny naturalnie prowadziłyby albo do ważonego dopasowania najmniejszych kwadratówlog(y) lub bezpośrednio do modelu (3) sam, który musiałby być dopasowany przy użyciu metody największego prawdopodobieństwa lub nieliniowych metod najmniejszych kwadratów.