Jak mogę użyć wartości do przetestowania założenia liniowości w analizie regresji wielokrotnej?

Poniższe wykresy są resztkowymi wykresami rozproszenia testu regresji, dla których z pewnością spełnione zostały już założenia dotyczące „normalności”, „homoscedastyczności” i „niezależności”! Do testowania założenia „liniowości” , chociaż patrząc na wykresy, można domyślić się, że związek jest krzywoliniowy, ale pytanie brzmi: w jaki sposób można zastosować wartość „R2 Linear” do przetestowania założenia liniowości? Jaki jest dopuszczalny zakres wartości „R2 Linear”, aby zdecydować, czy relacja jest liniowa? Co zrobić, gdy założenie liniowości nie jest spełnione, a transformacja IV również nie pomaga? !!

Oto link do pełnych wyników testu.

Wykresy rozrzutu:

wprowadź opis zdjęcia tutaj

— Cyrus
źródło

Widzę po wyglądzie wykresów, że używasz SPSS. Po prostu otwórz wykres, aby edytować i znajdź „Dodaj przycisk dopasowania linii”, gdzie znajdziesz kilka nieliniowych opcji rysowania linii, np. Loess. Sprawdź, czy ta opcja daje rozsądnie prostą linię.

— ttnphns

@ ttnphns: Dodałem fabułę z wierszem 2 Loess do pytania.

— Cyrus

Cóż, wydaje się dość krzywoliniowy, prawda? Możesz grać więcej z parametrami Loess, aby zobaczyć, co się stanie. Jeśli linia jest zakrzywiona, możesz wizualnie stwierdzić, że związek nie jest liniowy.

— ttnphns

x

$x$

y

$y$

@ ttnphns: tak, to krzywoliniowe. Nie wiem jak leczyć ten model! W tym teście (# 2) mam 2 IV, które bezpośrednio wpływają na DV (PIT). Wynik regresji wykazał, że tylko 1 z IV znacząco wpływa na DV. R2 jest tak niski (0,172), a liniowość również jest niska (przynajmniej, zgodnie z wykresem, gdy IV jest na niskich poziomach). Nie wiem czy ten test jest akceptowalny czy nie! Nawet ja przekształciłem oba IV (obliczając ich LN) i ponownie uruchomiłem regresję, ale wynik był jeszcze gorszy!

— Cyrus

Odpowiedzi:

$Y_i$ $X_i$ $R^2$

$R^2$ $X$ $Y$

$R^2$
$R^2$

Omówię kolejno:

$R^2$ $X_1, ..., X_n$ $99\%$ $M$ $1\%$

Y_{i} = {\begin{cases} Z_{i} & i f X_{i} \neq M \\ M & i f X_{i} = M \end{cases}

$Y_i = \begin{cases} Z_i & {\rm if \ } X_i \neq M \\ M & {\rm if \ } X_i = M \\ \end{cases}$

$Z_i \sim N(\mu,1)$ $M$ $\mu$ $\mu=0, M=10^5$ $X_i$ $Y_i$

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

$Y_i$ $X_i$ $Y_i$ $X_i$ $X_i = M$ .

$R^2$ $X_i$ $Y_i$

Y_{ja} = β_{0} + β_{1} X_{ja} + ε_{ja}

$Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i$

$Y_i$ $X_i$ $X_i$ ${\rm var}(\varepsilon_i) = \sigma^2$ $\beta_1$ $R^2$

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

$R^2$ , ale jest to bardziej kwestia rozpatrywania Wykresy rozrzutu pomiędzy predyktorami / prognozowanych wartości i odpowiedzi i dokonywania (być może subiektywna) decyzji.

Re: Co zrobić, gdy założenie liniowości nie jest spełnione, a transformacja IV również nie pomaga? !!

Gdy problemem jest nieliniowość, pomocne może być spojrzenie na wykresy reszt w stosunku do każdego predyktora - jeśli istnieje zauważalny wzór, może to wskazywać na nieliniowość w tym predyktorze. Na przykład, jeśli wykres ten ujawnia zależność „w kształcie misy” między resztami a predyktorem, może to wskazywać na brakujący kwadratowy termin w tym predyktorze. Inne wzory mogą wskazywać na inną formę funkcjonalną. W niektórych przypadkach może się zdarzyć, że nie próbujesz poprawnie przekształcić lub że prawdziwy model nie jest liniowy w żadnej przekształconej wersji zmiennych (chociaż możliwe jest znalezienie rozsądnego przybliżenia).

$R^2$

— Makro
źródło

$R^2=1$ $1$ $R^2$ $R^2$ $^2$ $1<x<2$ $R^2$ $R^2$

— Michael R. Chernick
źródło

Dzięki Michael. Mój rozmiar próbki to 302. Byłbym wdzięczny, gdybyś mógł spojrzeć na wyniki testu tutaj i sprawdzić, czy jest to wiarygodne i możliwe do zgłoszenia. TQ

— Cyrus

@Cyrus To jest trudne. Resztki wyglądają, jakby naprawdę dobrze pasowały do normy i nie widzę nic, co byłoby błędne w regresji liniowej. Masz przyzwoitą ilość danych. Kwadrat R jest niski, ponieważ składowa szumu losowego jest duża. Wykres LOESS pokazuje pewną krzywiznę przy niższych wartościach zmiennej niezależnej. Ale nie uważam tego za przekonujące. Myślę, że dobrze może być liniowy i pokazuje, dlaczego kwadrat R nie jest dobrym wskaźnikiem w tym przypadku.

— Michael R. Chernick

Tq Michael :) Tak, to naprawdę kłopotliwe! Wszystkie założenia są doskonale spełnione, ale liniowość! Jak widać na pierwszym wykresie powyżej, kwadratowy R2 (0.199) jest większy niż liniowy R2 (0.172), co oznacza, że może lepiej przewidzieć model. Właściwie, kiedy zrobiłem regresję kwadratową (dodając SC2), wykres rozproszenia w wyniku był tak heteroscedatyczny! Jestem zmieszany! Nie wiem, co zrobić z tym modelem! Jedynym problemem jest jego niska liniowość. Nie wiem, jak uzasadnić liniowość, jeśli umieszczę wykres rozproszenia w moim raporcie. Regresja kwadratowa również nie spełnia 2 Zgodność z założeniem jednorodności. Pomoc

— Cyrus

Nie sądzę, że to kłopotliwe. Wygląda dość liniowo. Istnieje duża zmienność, dlatego kwadrat R jest niski. Myślę, że jedynym sposobem na zmniejszenie zmienności byłoby znalezienie innej zmiennej objaśniającej.

— Michael R. Chernick