Aby odpowiedzieć na pierwsze pytanie , rozważ model
Y=X+sin(X)+ε
z iid o wartości średniej zero i skończonej wariancji. Gdy zakres (uważany za stały lub losowy) wzrasta, idzie do 1. Niemniej jednak, jeśli wariancja jest niewielka (około 1 lub mniej), dane są „zauważalnie nieliniowe”. Na wykresach .εXR2εvar(ε)=1
Nawiasem mówiąc, łatwym sposobem na uzyskanie małego jest podzielenie zmiennych niezależnych na wąskie zakresy. Regresja (przy użyciu dokładnie tego samego modelu ) w każdym zakresie będzie miała niski nawet jeśli pełna regresja oparta na wszystkich danych ma wysoką . Rozważenie tej sytuacji jest pouczającym ćwiczeniem i dobrym przygotowaniem do drugiego pytania.R 2 R 2R2R2R2
Oba poniższe wykresy wykorzystują te same dane. do pełnego regresji 0.86. na plasterki (o szerokości od 1/2 -5/2 do 5/2) to 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, .01 , .00, czytanie od lewej do prawej. Jeśli już, pasowania stają się lepsze w krojonej sytuacji, ponieważ 10 oddzielnych linii może ściślej dopasować się do danych w swoich wąskich zakresach. Mimo, że dla plastrów są znacznie poniżej pełnej , ani wytrzymałości związku, w liniowości , ani rzeczywiście jakiegokolwiek aspektu dane (poza zakres stosowany do regresji) uległ zmianie.R2R2R2R2X
(Można by się sprzeciwić, że ta procedura krojenia zmienia rozkład To prawda, ale mimo to odpowiada najczęstszemu użyciu w modelowaniu efektów stałych i ujawnia stopień, w jakim mówi nam o wariancja w sytuacji efektów losowych. W szczególności, gdy jest zmuszony zmieniać się w mniejszym przedziale swojego naturalnego zakresu, zwykle spada.)XR2R2XXR2
Podstawowy problem z polega na tym, że zależy on od zbyt wielu rzeczy (nawet po skorygowaniu w regresji wielokrotnej), ale przede wszystkim od wariancji zmiennych niezależnych i wariancji reszt. Zwykle nie mówi nam nic o „liniowości”, „sile relacji” ani nawet „dobroci dopasowania” do porównywania sekwencji modeli.R2
Przez większość czasu można znaleźć lepszą statystykę niż . Aby wybrać model, możesz zajrzeć do AIC i BIC; aby wyrazić adekwatność modelu, spójrz na wariancję reszt. R2
To prowadzi nas wreszcie do drugiego pytania . Jedną z sytuacji, w których może mieć pewne zastosowanie, jest to, gdy zmienne niezależne są ustawione na wartości standardowe, zasadniczo kontrolując wpływ ich wariancji. Zatem jest tak naprawdę zastępstwem dla wariantu reszt, odpowiednio znormalizowanego.R21−R2