Czy użyteczny czy niebezpieczny?

233

Przeglądałem notatki z wykładu Cosmy Shalizi (w szczególności rozdział 2.1.1 drugiego wykładu ) i przypomniano mi, że możesz uzyskać bardzo niskie nawet jeśli masz całkowicie liniowy model. $R^2$

Parafrazując przykład Shaliziego: załóżmy, że masz model , gdzie znany jest . Następnie a wyjaśniona wariancja to , więc . Odnosi się to do 0 jako i do 1 jako . $Y = aX + \epsilon$ $a$ $\newcommand{\Var}{\mathrm{Var}}\Var[Y] = a^2 \Var[x] + \Var[\epsilon]$ $a^2 \Var[X]$ $R^2 = \frac{a^2 \Var[x]}{a^2 \Var[X] + \Var[\epsilon]}$ $\Var[X] \rightarrow 0$ $\Var[X] \rightarrow \infty$

I odwrotnie, możesz uzyskać wysokie $R^2$ nawet jeśli twój model jest zauważalnie nieliniowy. (Czy ktoś ma dobry przykład?)

Kiedy więc $R^2$ jest użyteczną statystyką i kiedy należy ją zignorować?

regression r-squared

— raegtin
źródło

5

Zwróć uwagę na pokrewny wątek komentarza w innym niedawnym pytaniu

— whuber

36

Nie mam nic statystycznego do dodania do doskonałych odpowiedzi (szczególnie tej autorstwa @whuber), ale myślę, że właściwą odpowiedzią jest „R-kwadrat: Przydatny i niebezpieczny”. Jak prawie każda statystyka.

— Peter Flom

32

Odpowiedź na to pytanie brzmi: „Tak”

— Fomite,

Zobacz jeszcze jedną odpowiedź na stats.stackexchange.com/a/265924/99274 .

— Carl

Przykład ze skryptu nie jest zbyt przydatny, chyba że możesz nam powiedzieć, co to jest ? Jeśli jest stały, to twój argument jest niepoprawny, ponieważ Jednak jeśli nie jest stały , wykreśl względem dla małego i powiedz mi, że to liniowe ........

Var (a X + ϵ)

$\text{Var}(aX+\epsilon)$

ϵ

$\epsilon$

ϵ

$\epsilon$

Var (a X + b) = a^{2} Var (X)

$\text{Var}(aX+b)=a^2\text{Var}(X)$

ϵ

$\epsilon$

Y

$Y$

X

$X$

Var (X)

$\text{Var}(X)$

— Dan.

264

Aby odpowiedzieć na pierwsze pytanie , rozważ model

Y = X + \sin (X) + ε

$Y = X + \sin(X) + \varepsilon$

z iid o wartości średniej zero i skończonej wariancji. Gdy zakres (uważany za stały lub losowy) wzrasta, idzie do 1. Niemniej jednak, jeśli wariancja jest niewielka (około 1 lub mniej), dane są „zauważalnie nieliniowe”. Na wykresach . $\varepsilon$ $X$ $R^2$ $\varepsilon$ $var(\varepsilon)=1$

Krótki zasięg X

Szerszy zakres X

Nawiasem mówiąc, łatwym sposobem na uzyskanie małego jest podzielenie zmiennych niezależnych na wąskie zakresy. Regresja (przy użyciu dokładnie tego samego modelu ) w każdym zakresie będzie miała niski nawet jeśli pełna regresja oparta na wszystkich danych ma wysoką . Rozważenie tej sytuacji jest pouczającym ćwiczeniem i dobrym przygotowaniem do drugiego pytania. $R^2$ $R^2$ $R^2$

Oba poniższe wykresy wykorzystują te same dane. do pełnego regresji 0.86. na plasterki (o szerokości od 1/2 -5/2 do 5/2) to 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, .01 , .00, czytanie od lewej do prawej. Jeśli już, pasowania stają się lepsze w krojonej sytuacji, ponieważ 10 oddzielnych linii może ściślej dopasować się do danych w swoich wąskich zakresach. Mimo, że dla plastrów są znacznie poniżej pełnej , ani wytrzymałości związku, w liniowości , ani rzeczywiście jakiegokolwiek aspektu dane (poza zakres stosowany do regresji) uległ zmianie. $R^2$ $R^2$ $R^2$ $R^2$ $X$

Chmura punktów z pełną regresją

Plasterki chmury punktów z 10 regresjami

(Można by się sprzeciwić, że ta procedura krojenia zmienia rozkład To prawda, ale mimo to odpowiada najczęstszemu użyciu w modelowaniu efektów stałych i ujawnia stopień, w jakim mówi nam o wariancja w sytuacji efektów losowych. W szczególności, gdy jest zmuszony zmieniać się w mniejszym przedziale swojego naturalnego zakresu, zwykle spada.) $X$ $R^2$ $R^2$ $X$ $X$ $R^2$

Podstawowy problem z polega na tym, że zależy on od zbyt wielu rzeczy (nawet po skorygowaniu w regresji wielokrotnej), ale przede wszystkim od wariancji zmiennych niezależnych i wariancji reszt. Zwykle nie mówi nam nic o „liniowości”, „sile relacji” ani nawet „dobroci dopasowania” do porównywania sekwencji modeli. $R^2$

Przez większość czasu można znaleźć lepszą statystykę niż . Aby wybrać model, możesz zajrzeć do AIC i BIC; aby wyrazić adekwatność modelu, spójrz na wariancję reszt. $R^2$

To prowadzi nas wreszcie do drugiego pytania . Jedną z sytuacji, w których może mieć pewne zastosowanie, jest to, gdy zmienne niezależne są ustawione na wartości standardowe, zasadniczo kontrolując wpływ ich wariancji. Zatem jest tak naprawdę zastępstwem dla wariantu reszt, odpowiednio znormalizowanego. $R^2$ $1 - R^2$

— Whuber
źródło

26

Cóż za niezwykle dokładna i responsywna odpowiedź @whuber

— Peter Flom

Czy AIC i BIC nie dostosowują się wyraźnie do liczby szacowanych parametrów? Jeśli tak, porównanie z nieskorygowanym R ^ 2 wydaje się niesprawiedliwe. Więc pytam, czy twoja krytyka utrzymuje skorygowane R ^ 2? Wygląda na to, że gdybyś został ukarany za „krojenie”, że skorygowany R ^ 2 będzie mógł wrócić do mówienia o dobroci dopasowania modelu.

— russellpierce

7

@dr Moja krytyka idealnie pasuje do skorygowanego . Jedyne przypadki, w których nie ma wielkiej różnicy między i skorygowany to kiedy używasz ładunki parametrów w porównaniu do danych. W przykładzie krojenia było prawie 1000 punktów danych, a krojenie dodało tylko 18 parametrów; korekty nie wpłynęłyby nawet na drugie miejsce po przecinku, chyba że w segmentach końcowych, gdzie było tylko kilkadziesiąt punktów danych: i obniżyłoby je, wzmacniając argument.

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

— whuber

5

Odpowiedź na pytanie zawarte w pierwszym komentarzu powinna zależeć od celu i istnieje kilka sposobów interpretacji „testowania zależności liniowej”. Jednym z nich jest sprawdzenie, czy współczynnik jest niezerowy. Innym jest, czy chcesz wiedzieć, czy istnieją dowody nieliniowości. (sam w sobie) nie jest szczególnie przydatny dla obu, chociaż wiemy, że wysoki z dużą ilością danych oznacza, że ich wykres rozproszenia wygląda mniej więcej liniowo - jak mój drugi przykład lub jak w przykładzie @ makro. Dla każdego celu istnieje odpowiedni test i związana z nim wartość p.

R^{2}

$R^2$

R^{2}

$R^2$

— whuber

4

W drugim pytaniu powinniśmy zastanowić się, co może oznaczać „najlepsze” dopasowanie liniowe. Jeden kandydat będzie pasował, co minimalizuje resztkową sumę kwadratów. Możesz bezpiecznie użyć jako proxy, ale dlaczego nie zbadać (skorygowanego) samego błędu średniej kwadratowej? To bardziej przydatna statystyka.

R^{2}

$R^2$

— whuber

47

Twój przykład ma zastosowanie tylko wtedy, gdy zmienna powinna znajdować się w modelu . Z pewnością nie ma zastosowania, gdy używa się zwykłych oszacowań metodą najmniejszych kwadratów. Aby to zobaczyć, trzeba pamiętać, że jeśli szacujemy przez najmniejszych kwadratów w przykładzie, otrzymujemy: $\newcommand{\Var}{\mathrm{Var}}X$ $a$

\hat{a} = \frac{\frac{1}{N} \sum_{i = 1}^{N} X_{i} Y_{i}}{\frac{1}{N} \sum_{i = 1}^{N} X_{i}^{2}} = \frac{\frac{1}{N} \sum_{i = 1}^{N} X_{i} Y_{i}}{s_{X}^{2} + {\bar{X}}^{2}}

$\hat{a}=\frac{\frac{1}{N}\sum_{i=1}^{N}X_{i}Y_{i}}{\frac{1}{N}\sum_{i=1}^{N}X_{i}^{2}}=\frac{\frac{1}{N}\sum_{i=1}^{N}X_{i}Y_{i}}{s_{X}^{2}+\overline{X}^{2}}$ Gdzie to (przykładowa) wariancja i to średnia (próbka) z

s_{X}^{2} = \frac{1}{N} \sum_{i = 1}^{N} (X_{i} - \bar{X})^{2}

$s_{X}^2=\frac{1}{N}\sum_{i=1}^{N}(X_{i}-\overline{X})^{2}$

X

$X$

\bar{X} = \frac{1}{N} \sum_{i = 1}^{N} X_{i}

$\overline{X}=\frac{1}{N}\sum_{i=1}^{N}X_{i}$

X

$X$

{\hat{a}}^{2} V a r [X] = {\hat{a}}^{2} s_{X}^{2} = \frac{{(\frac{1}{N} \sum_{i = 1}^{N} X_{i} Y_{i})}^{2}}{s_{X}^{2}} {(\frac{s_{X}^{2}}{s_{X}^{2} + {\bar{X}}^{2}})}^{2}

$\hat{a}^{2}\Var[X]=\hat{a}^{2}s_{X}^{2}=\frac{\left(\frac{1}{N}\sum_{i=1}^{N}X_{i}Y_{i}\right)^2}{s_{X}^2}\left(\frac{s_{X}^{2}}{s_{X}^{2}+\overline{X}^{2}}\right)^2$

Teraz drugi człon jest zawsze mniejszy niż (równy w limicie), więc otrzymujemy górną granicę dla wkładu do ze zmiennej : $1$ $1$ $R^2$ $X$

{\hat{a}}^{2} V a r [X] \leq \frac{{(\frac{1}{N} \sum_{i = 1}^{N} X_{i} Y_{i})}^{2}}{s_{X}^{2}}

$\hat{a}^{2}\Var[X]\leq \frac{\left(\frac{1}{N}\sum_{i=1}^{N}X_{i}Y_{i}\right)^2}{s_{X}^2}$

I tak, chyba że również, zobaczymy jako (ponieważ licznik idzie do zera, ale mianownik przechodzi do ). Dodatkowo możemy uzyskać zbieżność do czegoś pomiędzy a zależności od tego, jak szybko te dwa warunki się rozchodzą. Teraz powyższy termin na ogół różni się szybciej niż jeśli powinien być w modelu, i wolniej, jeśli nie powinien być w modelu. W obu przypadkach idzie we właściwych kierunkach. $\left(\frac{1}{N}\sum_{i=1}^{N}X_{i}Y_{i}\right)^2\to\infty$ $R^2\to 0$ $s_{X}^{2}\to\infty$ $\Var[\epsilon]>0$ $R^2$ $0$ $1$ $s_{X}^2$ $X$ $X$ $R^2$

Zauważ też, że dla dowolnego skończonego zestawu danych (tj. Rzeczywistego) nigdy nie możemy mieć chyba że wszystkie błędy są dokładnie zerowe. Zasadniczo oznacza to, że jest miarą względną, a nie bezwzględną. Ponieważ chyba, że jest faktycznie równe , zawsze możemy znaleźć model lepiej dopasowany. Jest to prawdopodobnie „niebezpieczny” aspekt , ponieważ ponieważ jest skalowany w zakresie od do , wydaje się, że możemy interpolować go w absolutnym sensie. $R^2=1$ $R^2$ $R^2$ $1$ $R^2$ $0$ $1$

Prawdopodobnie bardziej przydatne jest sprawdzenie, jak szybko spada podczas dodawania zmiennych do modelu. I wreszcie, nigdy nie należy go ignorować przy selekcji zmiennych, ponieważ jest faktycznie wystarczającą statystyką do selekcji zmiennych - zawiera wszystkie informacje o selekcji zmiennych zawarte w danych. Jedyne, co jest potrzebne, to wybrać spadek w który odpowiada „dopasowaniu błędów” - który zwykle zależy od wielkości próby i liczby zmiennych. $R^2$ $R^2$ $R^2$

— prawdopodobieństwo prawdopodobieństwa
źródło

4

+1 Dużo fajnych punktów. Obliczenia dodają ilościowe informacje do poprzednich odpowiedzi.

— whuber

27

Jeśli mogę dodać przykład, kiedy jest niebezpieczny. Wiele lat temu pracowałem nad niektórymi danymi biometrycznymi i będąc młodym i głupim byłem zachwycony, gdy znalazłem pewne statystycznie znaczące wartości dla moich fantazyjnych regresji, które skonstruowałem za pomocą funkcji krokowych. Dopiero później, patrząc wstecz po mojej prezentacji dla dużej międzynarodowej publiczności, zdałem sobie sprawę, że biorąc pod uwagę ogromną różnorodność danych - w połączeniu z możliwą słabą reprezentacją próby w odniesieniu do populacji, 0,02 było całkowicie bez znaczenia nawet jeśli było to „istotne statystycznie” ... $R^2$ $R^2$ $R^2$

Osoby pracujące ze statystykami muszą zrozumieć dane!

— Sean
źródło

15

Żadna statystyka nie jest niebezpieczna, jeśli rozumiesz, co to znaczy. Przykład Seana nie ma nic wspólnego z kwadratem R, jest to ogólny problem zakochania się w znaczeniu statystycznym. Kiedy wykonujemy testy statystyczne w praktyce, interesują nas jedynie znaczące różnice. Dwie populacje nigdy nie mają identycznych rozkładów. Jeśli są bliskie równości, nie obchodzi nas to. Przy bardzo dużych próbkach możemy wykryć małe nieistotne różnice. Dlatego w moich konsultacjach dotyczących badań medycznych podkreślam różnicę między znaczeniem klinicznym a statystycznym.

— Michael Chernick

11

Początkowo moi klienci często mylą się, że celem statystycznym jest znaczenie statystyczne. Należy wykazać, że tak nie jest.

— Michael Chernick

Statystycznie istotny przy 0,02 oznacza po prostu, że posiadasz wystarczające dane, aby twierdzić, że nie wynosi 0. Ale jest bliskie 0. Tak więc istnieje bardzo niewielki związek między zmiennymi niezależnymi i zmiennymi zależnymi.

R^{2}

$R^2$

R^{2}

$R^2$

— Michael Chernick

1

Absolutnie zgadzam się z Michaelem. Trochę znajomości statystyki może być niebezpieczna! :) Na podstawie tego wglądu wiele lat temu ciężko pracowałem, aby nie powtórzyć tego głupiego błędu, wykonując wiele badań, aby lepiej zrozumieć, co naprawdę oznaczają statystyki. Magister i doktorat z statystyki i nadal uważam, że mam jeszcze długą drogę do ukończenia studiów!

— Sean

Dziękuję Sean. Doceniam twoje komentarze i pokorę.

— Michael Chernick

16

Gdy mają jeden przewidywań jest dokładnie interpretować jako stosunek różnicy w zakresie , które mogą być wyjaśnione przez liniowym związku z . Tę interpretację należy wziąć pod uwagę, patrząc na wartość . $R^{2}$ $Y$ $X$ $R^2$

Możesz uzyskać duży z relacji nieliniowej tylko wtedy, gdy związek jest zbliżony do liniowego. Załóżmy na przykład: gdzie i . Jeśli wykonasz obliczenia $R^2$ $Y = e^{X} + \varepsilon$ $X \sim {\rm Uniform}(2,3)$ $\varepsilon \sim N(0,1)$

R^{2} = c o r (X, e^{X} + ε)^{2}

$R^{2} = {\rm cor}(X, e^{X} + \varepsilon)^{2}$

okaże się, że jest to około (przybliżiłem to tylko przez symulację), mimo że związek wyraźnie nie jest liniowy. Powodem jest to, że wygląda okropnie podobnie jak funkcja liniowa w przedziale . $.914$ $e^{X}$ $(2,3)$

— Makro
źródło

1

Do poniższych uwag Erika i Macro nie sądzę, żeby ktokolwiek mi to przedstawił i prawdopodobnie lepiej jest mieć jedną połączoną odpowiedź zamiast trzech osobnych, ale dlaczego tak ważne jest to, że tyle dyskusji koncentruje się wokół tego, jak ty pisz rzeczy i gdzie je piszesz, zamiast przejmować się tym, co zostało powiedziane?

— Michael Chernick

8

@MichaelChernick, nie sądzę, że jest „tyle” dyskusji na temat tego, jak się pisze. Wytyczne, w których próbowaliśmy ci pomóc, są bardziej zbliżone do „gdyby wszyscy to zrobili, ta strona byłaby bardzo niezorganizowana i trudna do przestrzegania”. Może się wydawać, że wiele się na ten temat dyskutuje, ale to prawdopodobnie dlatego, że byłeś bardzo aktywnym uczestnikiem, odkąd dołączyłeś, co jest świetne, ponieważ wyraźnie wnosisz wiele do stołu. Jeśli chcesz o tym więcej porozmawiać, rozważ rozpoczęcie wątku na temat meta zamiast dyskusji na komentarzach pod moją niepowiązaną odpowiedzią :)

— Macro

co się stanie, jeśli jeden z użytkowników popiera jednolitą dystrybucję w twoim przykładzie?

— Qbik

Ponieważ zdobyłem doświadczenie na tej stronie, muszę zgodzić się z Macro, że ważne jest, aby być zwięzłym i skonsolidowanym.

— Michael

15

$R^2$ $R^2$ $R^2$

$\bar{R}^2 = 1 - (1-R^2)\frac{n-1}{n-p-1}$ $n$ $p$

— jedfrancis
źródło

21

R^{2}

$R^2$

6

$R^2$ $y=x^2$ $[0,1]$ $R^2$ $[0, 1]$ $R^2$
$R^2$ $Y= x + \epsilon$ $R^2$ $R^2$
$R^2$ $R^2$

— Michael Chernick
źródło