Wygląda na to, że używasz R
. Jeśli tak, należy pamiętać, że można zidentyfikować punkty na wykresie rozrzutu użyciu ? Zidentyfikować . Myślę, że dzieje się tutaj kilka rzeczy. Po pierwsze, masz bardzo wpływowy punkt na wykresie LN_RT_vol_in ~ LN_AT_vol_in
(podświetlonego) w przybliżeniu (.2, 1,5). Jest to bardzo prawdopodobne, że będzie to znormalizowana reszta, która wynosi około -3,7. Efektem tego punktu będzie spłaszczenie linii regresji, pochylenie jej bardziej poziomo niż ostro podniesiona linia, którą uzyskałbyś w przeciwnym razie. Efektem tego jest to, że wszystkie twoje resztki zostaną obrócone przeciwnie do ruchu wskazówek zegara w stosunku do miejsca, w którym w przeciwnym razie zostałyby zlokalizowane na residual ~ predicted
wykresie (przynajmniej podczas myślenia w kategoriach tej zmiennej i ignorowania drugiej).
Niemniej jednak widoczna prosta linia resztek, którą zobaczysz, nadal tam będzie, ponieważ istnieją one gdzieś w trójwymiarowej chmurze twoich oryginalnych danych. Trudno je znaleźć na jednym z marginalnych wykresów. Możesz użyć funkcji ident (), aby pomóc, a także możesz użyć pakietu rgl , aby utworzyć dynamiczny wykres rozproszenia 3D, który można swobodnie obracać za pomocą myszy. Należy jednak zauważyć, że reszty linii prostej są poniżej 0 w przewidywanej wartości i mają poniżej 0 reszt (tj. Są poniżej dopasowanej linii regresji); daje to dużą wskazówkę, gdzie szukać. Patrząc ponownie na twoją fabułęLN_RT_vol_in ~ LN_AT_vol_in
, Myślę, że mogę je zobaczyć. Istnieje dość prosta grupa punktów biegnących po przekątnej w dół i na lewo od około (-1,01; -1,00) na dolnej krawędzi chmury punktów w tym regionie. Podejrzewam, że o to chodzi.
Innymi słowy, reszty wyglądają w ten sposób, ponieważ są już w taki sposób gdzieś w przestrzeni danych. W gruncie rzeczy, to sugeruje @ttnphns, ale nie sądzę, że jest to stała w żadnym z oryginalnych wymiarów - to stała w wymiarze pod kątem do twoich oryginalnych osi. Ponadto zgadzam się z @MichaelChernick, że ta pozorna prostoliniowość w wykresie resztkowym jest prawdopodobnie nieszkodliwa, ale twoje dane nie są tak naprawdę bardzo normalne. Są one jednak nieco normalne i wydaje się, że masz przyzwoitą liczbę danych, więc CLT może Cię pokryć, ale na wszelki wypadek możesz chcieć uruchomić. Wreszcie martwiłbym się, że ta „odstająca” przyczynia się do twoich wyników; solidne podejście prawdopodobnie zasługuje.