Najlepszą opcją użycia regresji do znalezienia wartości odstających jest użycie solidnej regresji.
Wartości odstające mogą wpływać na regresję zwykłą na dwa sposoby:
x¯
Po drugie, obserwacja „oddalona” w przestrzeni X jest obserwacją wpływową - może pociągnąć za sobą dopasowanie linii. Jeśli jest wystarczająco daleko, linia przejdzie przez wpływowy punkt:
Na lewym wykresie jest punkt, który jest dość wpływowy i odciąga linię od dużej ilości danych. Na właściwej działce został przesunięty jeszcze dalej - a teraz linia przechodzi przez punkt. Kiedy wartość x jest tak ekstremalna, gdy przesuwasz ten punkt w górę i w dół, linia przesuwa się wraz z nim, przechodząc przez średnią innych punktów i przez jeden wpływający punkt.
Wpływowy punkt, który jest doskonale spójny z resztą danych, może nie stanowić tak dużego problemu, ale taki, który jest daleko od linii przechodzącej przez resztę danych, sprawi, że linia ją dopasuje, a nie dane.
Jeśli spojrzysz na prawy wykres, czerwona linia - linia regresji najmniejszych kwadratów - wcale nie pokazuje skrajnego punktu jako wartości odstającej - jego reszta wynosi 0. Zamiast tego duże reszty z linii najmniejszych kwadratów są w główna część danych!
Oznacza to, że możesz całkowicie pominąć wartość odstającą .
Co gorsza, przy regresji wielokrotnej wartość odstająca w przestrzeni X może nie wyglądać szczególnie nietypowo dla żadnej pojedynczej zmiennej X. Jeśli istnieje taka możliwość, użycie regresji metodą najmniejszych kwadratów jest potencjalnie bardzo ryzykowne.
Solidna regresja
Jeśli dopasujesz solidną linię - w szczególności jedną odporną na wpływowe wartości odstające - jak zielona linia na drugim wykresie - wtedy wartość odstająca ma bardzo dużą resztę.
W takim przypadku masz nadzieję zidentyfikować wartości odstające - będą to punkty, które nie są - w pewnym sensie - bliskie granicy.
Usuwanie wartości odstających
Z pewnością możesz użyć solidnej regresji, aby zidentyfikować, a tym samym usunąć wartości odstające.
Ale kiedy już masz mocne dopasowanie regresji, które już nie jest tak dotkliwie dotknięte wartościami odstającymi, niekoniecznie musisz usuwać wartości odstające - masz już model, który jest dobrze dopasowany.