Co wyjaśnia Dodany wykres zmienny (wykres częściowej regresji) w regresji wielokrotnej?

Mam model zestawu danych Filmy i użyłem regresji:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

Co dało wynik:

wprowadź opis zdjęcia tutaj

Teraz próbowałem po raz pierwszy pracować nad czymś o nazwie Dodany wykres zmienny i otrzymałem następujące wyniki:

car::avPlots(model, id.n=2, id.cex=0.7)

Dodano wykres zmienny

Problem polega na tym, że próbowałem zrozumieć Dodany wykres zmiennej za pomocą Google, ale nie mogłem zrozumieć jego głębokości, widząc wykres, zrozumiałem, że jest to rodzaj reprezentacji pochylenia na podstawie każdej zmiennej wejściowej związanej z wyjściem.

Czy mogę uzyskać nieco więcej szczegółów, na przykład uzasadnienie normalizacji danych?

— Abhishek Choudhary
źródło

@Silverfish udzielił miłej odpowiedzi na twoje pytanie. Na drobnych szczegółach, co zrobić z konkretnym zestawem danych, model liniowy wygląda na bardzo zły pomysł. Głosy są oczywiście mocno wypaczoną nieujemną zmienną, więc wskazane jest coś w rodzaju modelu Poissona. Zobacz np. Blog.stata.com/tag/poisson-regression Zauważ, że taki model nie zobowiązuje cię do założenia, że krańcowy rozkład odpowiedzi jest dokładnie Poissonem bardziej niż standardowy model liniowy zobowiązuje cię do postulowania marginalnej normalności.

— Nick Cox,

Jednym ze sposobów dostrzeżenia, że model liniowy działa źle, jest zauważenie, że przewiduje on wartości ujemne dla znacznej części przypadków. Zobacz region po lewej stronie dopasowania

na pierwszym wykresie resztkowym.

= 0

$= 0$

— Nick Cox,

Dzięki Nickowi Coxowi, tutaj odkryłem, że istnieje wysoce wypaczona, nieujemna natura, muszę rozważyć model Poissona, więc jest jakikolwiek link, który daje mi właściwe wyobrażenie, który model użyć w którym scenariuszu opartym na zbiorze danych i próbowałem użyć Czy regresja wielomianowa dla mojego zestawu danych będzie dobrym wyborem tutaj ...

— Abhishek Choudhary,

Podałem już link, który z kolei zawiera dalsze odniesienia. Przykro mi, ale nie rozumiem drugiej połowy twojego pytania w odniesieniu do „scenariusza opartego na zbiorze danych” i „regresji wielomianowej”. Podejrzewam, że musisz zadać nowe pytanie o wiele bardziej szczegółowe.

— Nick Cox

Jaki pakiet zainstalowałeś, aby R rozpoznał funkcję avPlots?

— Isa

Odpowiedzi:

Dla ilustracji wezmę mniej złożony model regresji $Y = \beta_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$ którym zmienne predykcyjne $X_2$ i $X_3$ mogą być skorelowane. Powiedzmy, że oba nachylenia $\beta_2$ i $\beta_3$ są dodatnie, więc możemy powiedzieć, że (i) $Y$ wzrasta wraz ze wzrostem $X_2$ , jeśli $X_3$ jest utrzymywane na stałym poziomie, ponieważ $\beta_2$ jest dodatnie; (ii) $Y$ wzrasta wraz ze wzrostem $X_3$ , jeśli $X_2$ jest utrzymywane na stałym poziomie, ponieważ $\beta_3$ jest dodatnie.

Zauważ, że ważne jest interpretowanie współczynników regresji wielokrotnej, biorąc pod uwagę, co dzieje się, gdy pozostałe zmienne są utrzymywane na stałym poziomie („ceteris paribus”). Załóżmy, że właśnie regresowałem $Y$ względem $X_2$ przy użyciu modelu $Y = \beta_1' + \beta_2' X_2 + \epsilon'$ . Moje oszacowanie współczynnika nachylenia $\beta_2'$ , który mierzy wpływ na $Y$ wzrostu o 1 jednostkę w $X_2$ bez trzymania $X_3$ stała, może być różny od mojego oszacowania $\beta_2$ z regresji wielokrotnej - który również mierzy wpływ na $Y$ podwyższenia jedna jednostka w $X_2$ , ale nie trzymaj $X_3$ stały. Problem z moim oszacowaniem $\hat{\beta_2'}$ polega na tym, że cierpi on na odchylenie zmiennej pominiętej, jeśli $X_2$ i $X_3$ są skorelowane.

Aby zrozumieć dlaczego, wyobraź sobie, że $X_2$ i $X_3$ są ujemnie skorelowane. Teraz, gdy zwiększę $X_2$ o jedną jednostkę, wiem, że średnia wartość $Y$ powinna wzrosnąć, ponieważ $\beta_2 > 0$ . Ale jak $X_2$ wzrasta, jeżeli nie posiadają $X_3$ stałą następnie $X_3$ ma tendencję do spadku, a od $\beta_3 > 0$ będzie to mają tendencję do zmniejszenia średniej wartości $Y$ . Tak więc ogólny efekt wzrostu o 1 jednostkę w $X_2$ będzie niższy, jeśli pozwolę $X_3$ !również zmieniać, stąd $\beta_2' < \beta_2$ . Gorzej, tym silniej korelują $X_2$ i $X_3$ , a im większy efekt $X_3$ do $\beta_3$ - w naprawdę ciężkim przypadku możemy nawet znaleźć $\beta_2' < 0$ chociaż wiemy, że ceteris paribus, $X_2$ ma pozytywny wpływ na $Y$

Mam nadzieję, że teraz zrozumiesz, dlaczego narysowanie wykresu $Y$ względem $X_2$ byłoby złym sposobem na zwizualizowanie związku między $Y$ i $X_2$ w twoim modelu. W moim przykładzie twoje oko zostanie przyciągnięte do linii najlepszego dopasowania ze nachyleniem $\hat{\beta_2'}$ , która nie odzwierciedla $\hat{\beta_2}$ z twojego modelu regresji. W najgorszym przypadku Twój model może przewidywać, że $Y$ wzrasta wraz ze wzrostem $X_2$ (przy innych zmiennych utrzymywanych na stałym poziomie), a jednak punkty na wykresie sugerują, że $Y$ maleje, gdy $X_2$ .

Problem polega na tym, że na prostym wykresie $Y$ względem $X_2$ pozostałe zmienne nie są utrzymywane na stałym poziomie. Jest to kluczowy wgląd w korzyści z dodanego wykresu zmiennej (zwanego również wykresem regresji częściowej) - wykorzystuje on twierdzenie Frisch-Waugh-Lovell do „częściowego” wpływu innych predyktorów. Osie horyzontalne i pionowe na wykresie można chyba najłatwiej zrozumieć * jako „ $X_2$ po uwzględnieniu innych predyktorów” i „ $Y$ po uwzględnieniu innych predyktorów”. Teraz możesz spojrzeć na związek między $Y$ i $X_2$ po uwzględnieniu wszystkich innych predyktorów. Na przykład nachylenie, które widać na każdym wykresie, teraz odzwierciedla współczynniki regresji częściowej z oryginalnego modelu regresji wielokrotnej.

Znaczna część wartości dodanego wykresu zmiennej pochodzi z etapu diagnostyki regresji, zwłaszcza że reszty w dodanym wykresie zmiennej są dokładnie resztami z pierwotnej regresji wielokrotnej. Oznacza to, że wartości odstające i heteroskedastyczność można zidentyfikować w podobny sposób, jak w przypadku wykresu modelu regresji prostej, a nie wielokrotnej. Można również zobaczyć punkty wpływające - jest to przydatne w regresji wielokrotnej, ponieważ niektóre punkty wpływające nie są oczywiste w oryginalnych danych przed uwzględnieniem innych zmiennych. W moim przykładzie umiarkowanie duża wartość $X_2$ może nie wyglądać nie na miejscu w tabeli danych, ale jeśli wartość $X_3$ jest również duża pomimo $X_2$ i $X_3$ ponieważ jest ujemnie skorelowany, wówczas połączenie jest rzadkie. „Uwzględnianie innych predyktorów”, ta wartość $X_2$ jest niezwykle duża i będzie bardziej widoczna na dodanym wykresie zmiennych.

$*$ Z technicznego punktu widzenia byłyby to reszty z uruchomienia dwóch innych wielokrotnych regresji: reszty z regresji $Y$ względem wszystkich predyktorów innych niż $X_2$ idą na osi pionowej, podczas gdy reszty z regresji $X_2$ $Y$ $X_2$ $X_2$ $Y$ $X_2$ $Y$

— Silverfish
źródło

Nie jestem pewien, jak o to zapytać, ale czy jest coś, co naprawdę można powiedzieć o trendach obserwowanych na fabułach? Na przykład, czy dopasowanie każdego trendu zależy od niezależności każdego z predyktorów, czy coś w tym rodzaju?

— naught101

Czy istnieje metoda przeliczania jednostek reszt na osiach poziomych i pionowych na jednostki podstawowych zmiennych?

— Nicholas G

To świetna odpowiedź. Ale czy w pierwszym akapicie jest literówka (zmienne predykcyjne)? Czy powinny to być X2 i X3?

— detly

@detly Dzięki, zmieniono!

— Silverfish,

Silverfish, znasz odpowiedź na pytanie @NicholasG? Czy jest jakiś sposób, aby reszty były interpretowalne pod względem jednostek zmiennej X?

— Parseltongue

-1

czy jest coś, co naprawdę można powiedzieć o trendach obserwowanych na fabułach

Jasne, ich nachylenia są współczynnikami regresji z modelu oryginalnego (współczynniki regresji częściowej, wszystkie inne predyktory utrzymywane na stałym poziomie)

— anonimowy
źródło