Czy wysokie

W statystykach przeprowadzamy regresje liniowe, od samego ich początku. Ogólnie wiemy, że im wyższa tym lepiej, ale czy kiedykolwiek istnieje scenariusz, w którym wysokie byłoby bezużytecznym modelem? $R^2$ $R^2$

regression r-squared

— Richard Hardy
źródło

Odpowiedź na stats.stackexchange.com/questions/13314 może dać ci kilka pomysłów.

— whuber

Omówiono tutaj jedną sytuację z przykładem. Na przykład, jeśli regresujesz wyniki monety 1 na monety 2 w przykładzie tam, dostaniesz

powyżej 85%, ale ten pozorny związek jest całkowicie fałszywy.

R^{2}

$R^2$

— Glen_b

jest modelem. Dlatego powinieneś powiedzieć „... wysoki

pochodziłby z bezużytecznego modelu” lub coś podobnego zamiast „… wysoki

byłby bezużytecznym modelem”.

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

— Richard Hardy,

sprawdź ten link: Jaka jest dobra wartość dla kwadratu R

— Haitao Du

Odpowiedni temat: stats.stackexchange.com/q/414349/121522

— mkt - Przywróć Monikę

Odpowiedzi:

Tak. Kryteria oceny modelu statystycznego zależą od konkretnego problemu i nie są jakąś mechaniczną funkcją lub istotnością statystyczną (choć mają one znaczenie). Odpowiednie pytanie brzmi: „czy model pomaga zrozumieć dane?” $R^2$

Bezsensowne regresje z wysokim $R^2$

Najprostszym sposobem na uzyskanie wysokiego jest zrobienie jakiegoś odpowiednika cofnięcia odpowiednich butów na lewych butach. Powiedz mi, jaki jest rozmiar twojego prawego buta, a ja mogę z dużą dokładnością przewidzieć rozmiar twojego lewego buta. Ogromny ! Cóż za wspaniały model statystyczny! Tyle że to znaczy kupa. Możesz uzyskać świetne , umieszczając tę samą zmienną po lewej i prawej stronie regresji, ale ta ogromna regresja prawie na pewno byłaby bezużyteczna. $R^2$ $R^2$ $R^2$ $R^2$
Istnieją inne przypadki, w których umieszczenie zmiennej po prawej stronie jest koncepcyjnie niewłaściwe (nawet jeśli podnosi ). Załóżmy, że próbujesz oszacować, czy jakaś grupa mniejszościowa jest dyskryminowana i rzadziej znajdzie pracę. Nie należy kontrolować, czy firma oddzwoniła po złożeniu podania o pracę, ponieważ mniejsza szansa na odpowiedź na podanie o pracę mniejszości może być kanałem dyskryminacji! Dodanie niewłaściwej kontroli może sprawić, że regresja nie będzie miała znaczenia. $R^2$
Można zawsze zwiększyć dodając więcej regresorów! Mogę zachować dodając regresorów do prawej strony, aż dostanę cokolwiek mi się podoba. Aby przewidzieć zarobki z pracy, mogę dodać kontrolę edukacji, kontrolę wieku, ustalone efekty kwartalne, ustalone efekty kodu pocztowego, ustalone zawody, ustalone efekty, ustalone efekty rodzinne, ustalone efekty dla zwierząt domowych, długość włosów itp. W pewnym momencie kontrole przestają mieć sens, ale wciąż rośnie. Dodanie wszystkiego jako regresora jest znane jako regresja „zlewu kuchennego”. Możesz uzyskać wysoki ale może znacznie przewyższyć dane: Twój model doskonale przewiduje próbkę użytą do oszacowania modelu (ma wysoką $R^2$ $R^2$ $R^2$ $R^2$ ) ale szacowany model zawodzi strasznie w przypadku nowych danych. $R^2$
Ten sam pomysł może pojawić się w dopasowaniu krzywej wielomianowej. Daj mi losowe dane i prawdopodobnie mogę dostać wielkie montując wielomian 200 stopni. W przypadku nowych danych szacowany wielomian nie zadziałałby z powodu nadmiernego dopasowania. Ponownie wysokie dla modelu szacowanego, ale model szacowany jest bezużyteczny. $R^2$ $R^2$
Punkt (3-4) Dlatego dostosowaliśmy , który zapewnia pewną karę za dodanie większej regresorów, ale regulowana może zazwyczaj być nadal juiced przez przeuczenia danych. Ma także cudownie bezsensowną cechę, że może stać się negatywny. $R^2$ $R^2$

Mógłbym również podać przykłady, w których niskie jest w porządku (np. Szacowanie bety w modelach wyceny aktywów), ale ten post stał się już dość długi. Podsumowując, ogólne pytanie powinno brzmieć: „wiedząc, co wiem o problemie i statystykach, czy ten model pomaga mi zrozumieć / wyjaśnić dane?” może być narzędziem, które pomogą odpowiedzieć na to pytanie, ale nie jest to tak proste, jak modele z wyższym są zawsze lepsze. $R^2$ $R^2$ $R^2$

— Matthew Gunn
źródło

+1 za dużo dobrych punktów. Próbuję dowiedzieć się, co powiedzieć na temat tonu ....

— rolando2

R^{2}

$R^2$

R^{2}

$R^2$

„Wyższy jest lepszy” to zła zasada dla kwadratu R.

Don Morrison napisał kilka słynnych artykułów kilka lat temu, pokazując, że kwadraty R zbliżające się do zera mogą nadal być opłacalne i opłacalne, w zależności od branży. Na przykład w marketingu bezpośrednim przewidującym odpowiedź na prenumeratę czasopisma wysyłaną do 10 milionów gospodarstw domowych, kwadraty R z małymi pojedynczymi cyframi mogą generować zyskowne kampanie (na podstawie ROI), jeśli wysyłka opiera się na 2 lub 3 decylach odpowiedzi prawdopodobieństwo.

Inny socjolog (którego nazwa ucieka ode mnie) podzielił kwadraty R według typu danych, zauważając, że badania ankietowe wrt, kwadraty R w zakresie 10-20% były normą, podczas gdy w przypadku danych biznesowych kwadraty R w zakresie 40–60% należało się spodziewać. Następnie zauważyli, że kwadraty R wynoszące 80–90% lub więcej prawdopodobnie naruszały podstawowe założenia regresji. Jednak ten autor nie miał doświadczenia z marketingowym miksem, danymi szeregów czasowych lub modelami zawierającymi pełny zestaw cech „przyczynowych” (np. Klasyczne 4 „Ps” ceny, promocji, miejsca i produktu), które mogą i będą wytwarzać R- kwadraty zbliżają się do 100%.

To powiedziawszy, nawet rozsądne, praktyczne zasady analizy porównawczej, takie jak te, nie są zbyt pomocne w kontaktach z niepiśmiennym technicznie, którego pierwszym pytaniem o model predykcyjny zawsze będzie: „Co to jest R-kwadrat?”

— Mike Hunter
źródło

Inne odpowiedzi oferują świetne teoretyczne wyjaśnienia wielu sposobów, w jakie wartości R-kwadrat można naprawić / sfałszować / wprowadzić w błąd / itp. Oto praktyczna demonstracja, która zawsze się ze mną utknęła, zakodowana w r:

y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))

Może to zapewnić wartości R do kwadratu> 0,90. Dodaj wystarczającą liczbę regresorów, a nawet wartości losowe mogą „przewidzieć” wartości losowe.

— Adam C.
źródło

Ciekawe: kontrast set.seed(1)i set.seed(2).

— PatrickT

Czy wysokie

Bezsensowne regresje z wysokim R2)R2)R^2

Bezsensowne regresje z wysokim $R^2$