W statystykach przeprowadzamy regresje liniowe, od samego ich początku. Ogólnie wiemy, że im wyższa tym lepiej, ale czy kiedykolwiek istnieje scenariusz, w którym wysokie byłoby bezużytecznym modelem?R 2
W statystykach przeprowadzamy regresje liniowe, od samego ich początku. Ogólnie wiemy, że im wyższa tym lepiej, ale czy kiedykolwiek istnieje scenariusz, w którym wysokie byłoby bezużytecznym modelem?R 2
Odpowiedzi:
Tak. Kryteria oceny modelu statystycznego zależą od konkretnego problemu i nie są jakąś mechaniczną funkcją lub istotnością statystyczną (choć mają one znaczenie). Odpowiednie pytanie brzmi: „czy model pomaga zrozumieć dane?”
Najprostszym sposobem na uzyskanie wysokiego jest zrobienie jakiegoś odpowiednika cofnięcia odpowiednich butów na lewych butach. Powiedz mi, jaki jest rozmiar twojego prawego buta, a ja mogę z dużą dokładnością przewidzieć rozmiar twojego lewego buta. Ogromny R 2 ! Cóż za wspaniały model statystyczny! Tyle że to znaczy kupa. Możesz uzyskać świetne R 2 , umieszczając tę samą zmienną po lewej i prawej stronie regresji, ale ta ogromna regresja R 2 prawie na pewno byłaby bezużyteczna.
Istnieją inne przypadki, w których umieszczenie zmiennej po prawej stronie jest koncepcyjnie niewłaściwe (nawet jeśli podnosi ). Załóżmy, że próbujesz oszacować, czy jakaś grupa mniejszościowa jest dyskryminowana i rzadziej znajdzie pracę. Nie należy kontrolować, czy firma oddzwoniła po złożeniu podania o pracę, ponieważ mniejsza szansa na odpowiedź na podanie o pracę mniejszości może być kanałem dyskryminacji! Dodanie niewłaściwej kontroli może sprawić, że regresja nie będzie miała znaczenia.
Można zawsze zwiększyć dodając więcej regresorów! Mogę zachować dodając regresorów do prawej strony, aż dostanę cokolwiek R 2 mi się podoba. Aby przewidzieć zarobki z pracy, mogę dodać kontrolę edukacji, kontrolę wieku, ustalone efekty kwartalne, ustalone efekty kodu pocztowego, ustalone zawody, ustalone efekty, ustalone efekty rodzinne, ustalone efekty dla zwierząt domowych, długość włosów itp. W pewnym momencie kontrole przestają mieć sens, ale R 2 wciąż rośnie. Dodanie wszystkiego jako regresora jest znane jako regresja „zlewu kuchennego”. Możesz uzyskać wysoki R 2, ale może znacznie przewyższyć dane: Twój model doskonale przewiduje próbkę użytą do oszacowania modelu (ma wysoką R ) ale szacowany model zawodzi strasznie w przypadku nowych danych.
Ten sam pomysł może pojawić się w dopasowaniu krzywej wielomianowej. Daj mi losowe dane i prawdopodobnie mogę dostać wielkie montując wielomian 200 stopni. W przypadku nowych danych szacowany wielomian nie zadziałałby z powodu nadmiernego dopasowania. Ponownie wysokie R 2 dla modelu szacowanego, ale model szacowany jest bezużyteczny.
Punkt (3-4) Dlatego dostosowaliśmy , który zapewnia pewną karę za dodanie większej regresorów, ale regulowana R 2 może zazwyczaj być nadal juiced przez przeuczenia danych. Ma także cudownie bezsensowną cechę, że może stać się negatywny.
Mógłbym również podać przykłady, w których niskie jest w porządku (np. Szacowanie bety w modelach wyceny aktywów), ale ten post stał się już dość długi. Podsumowując, ogólne pytanie powinno brzmieć: „wiedząc, co wiem o problemie i statystykach, czy ten model pomaga mi zrozumieć / wyjaśnić dane?” R 2 może być narzędziem, które pomogą odpowiedzieć na to pytanie, ale nie jest to tak proste, jak modele z wyższym R 2 są zawsze lepsze.
„Wyższy jest lepszy” to zła zasada dla kwadratu R.
Don Morrison napisał kilka słynnych artykułów kilka lat temu, pokazując, że kwadraty R zbliżające się do zera mogą nadal być opłacalne i opłacalne, w zależności od branży. Na przykład w marketingu bezpośrednim przewidującym odpowiedź na prenumeratę czasopisma wysyłaną do 10 milionów gospodarstw domowych, kwadraty R z małymi pojedynczymi cyframi mogą generować zyskowne kampanie (na podstawie ROI), jeśli wysyłka opiera się na 2 lub 3 decylach odpowiedzi prawdopodobieństwo.
Inny socjolog (którego nazwa ucieka ode mnie) podzielił kwadraty R według typu danych, zauważając, że badania ankietowe wrt, kwadraty R w zakresie 10-20% były normą, podczas gdy w przypadku danych biznesowych kwadraty R w zakresie 40–60% należało się spodziewać. Następnie zauważyli, że kwadraty R wynoszące 80–90% lub więcej prawdopodobnie naruszały podstawowe założenia regresji. Jednak ten autor nie miał doświadczenia z marketingowym miksem, danymi szeregów czasowych lub modelami zawierającymi pełny zestaw cech „przyczynowych” (np. Klasyczne 4 „Ps” ceny, promocji, miejsca i produktu), które mogą i będą wytwarzać R- kwadraty zbliżają się do 100%.
To powiedziawszy, nawet rozsądne, praktyczne zasady analizy porównawczej, takie jak te, nie są zbyt pomocne w kontaktach z niepiśmiennym technicznie, którego pierwszym pytaniem o model predykcyjny zawsze będzie: „Co to jest R-kwadrat?”
Inne odpowiedzi oferują świetne teoretyczne wyjaśnienia wielu sposobów, w jakie wartości R-kwadrat można naprawić / sfałszować / wprowadzić w błąd / itp. Oto praktyczna demonstracja, która zawsze się ze mną utknęła, zakodowana w r
:
y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))
Może to zapewnić wartości R do kwadratu> 0,90. Dodaj wystarczającą liczbę regresorów, a nawet wartości losowe mogą „przewidzieć” wartości losowe.
set.seed(1)
i set.seed(2)
.