Wykrywanie wartości odstających za pomocą regresji


11

Można zastosować regresję do wykrycia naszych poziomów. Rozumiem, że istnieją sposoby na ulepszenie modelu regresji poprzez usunięcie wartości odstających. Ale głównym celem tutaj nie jest dopasowanie modelu regresji, ale znalezienie lierów za pomocą regresji


Kiedy dopasowanie poprawia się po dopasowaniu modelu bez outsidera, istnieją dowody, że jest to ekstremalna wartość. Może to być dyskusyjne, jeśli masz dużo danych, ponieważ dopasowanie będzie względnie mniej poprawione.
Roman Luštrik

@ RomanLuštrik: jest to bardzo niezdecydowana definicja wartości odstających. Na przykład nie jest to zgodne z poglądem wartości odstających zastosowanych w odpowiedzi Glen_b (lub w tym przypadku z definicją wartości odstających zastosowanych w podręczniku na ten temat, takim jak „Solidne statystyki: teoria i metody”). Chcesz zacytować źródło wspierające twoją definicję?
user603

Nie mogę cytować żadnego odniesienia. Masz oczywiście rację, co to jest poprawa dopasowania? Ulepszenie może być kwestią wysoce subiektywną i powinno być stosowane jako wskazówka, a nie jako wartość graniczna dla robota i oceniane na podstawie poszczególnych przypadków.
Roman Luštrik

Iteracyjnie ponownie ważone najmniejsze kwadraty to solidna metoda regresji powszechnie stosowana do znajdowania wartości odstających w danych.
whuber

Odpowiedzi:


13

Najlepszą opcją użycia regresji do znalezienia wartości odstających jest użycie solidnej regresji.

Wartości odstające mogą wpływać na regresję zwykłą na dwa sposoby:

x¯

Po drugie, obserwacja „oddalona” w przestrzeni X jest obserwacją wpływową - może pociągnąć za sobą dopasowanie linii. Jeśli jest wystarczająco daleko, linia przejdzie przez wpływowy punkt:

wprowadź opis zdjęcia tutaj

Na lewym wykresie jest punkt, który jest dość wpływowy i odciąga linię od dużej ilości danych. Na właściwej działce został przesunięty jeszcze dalej - a teraz linia przechodzi przez punkt. Kiedy wartość x jest tak ekstremalna, gdy przesuwasz ten punkt w górę i w dół, linia przesuwa się wraz z nim, przechodząc przez średnią innych punktów i przez jeden wpływający punkt.

Wpływowy punkt, który jest doskonale spójny z resztą danych, może nie stanowić tak dużego problemu, ale taki, który jest daleko od linii przechodzącej przez resztę danych, sprawi, że linia ją dopasuje, a nie dane.

Jeśli spojrzysz na prawy wykres, czerwona linia - linia regresji najmniejszych kwadratów - wcale nie pokazuje skrajnego punktu jako wartości odstającej - jego reszta wynosi 0. Zamiast tego duże reszty z linii najmniejszych kwadratów są w główna część danych!

Oznacza to, że możesz całkowicie pominąć wartość odstającą .

Co gorsza, przy regresji wielokrotnej wartość odstająca w przestrzeni X może nie wyglądać szczególnie nietypowo dla żadnej pojedynczej zmiennej X. Jeśli istnieje taka możliwość, użycie regresji metodą najmniejszych kwadratów jest potencjalnie bardzo ryzykowne.

Solidna regresja

Jeśli dopasujesz solidną linię - w szczególności jedną odporną na wpływowe wartości odstające - jak zielona linia na drugim wykresie - wtedy wartość odstająca ma bardzo dużą resztę.

W takim przypadku masz nadzieję zidentyfikować wartości odstające - będą to punkty, które nie są - w pewnym sensie - bliskie granicy.


Usuwanie wartości odstających

Z pewnością możesz użyć solidnej regresji, aby zidentyfikować, a tym samym usunąć wartości odstające.

Ale kiedy już masz mocne dopasowanie regresji, które już nie jest tak dotkliwie dotknięte wartościami odstającymi, niekoniecznie musisz usuwać wartości odstające - masz już model, który jest dobrze dopasowany.


1
„Czasami niekoniecznie musisz usuwać wartości odstające”, ustalenie wartości odstających jest celem badania (np. identyfikacja oszustwa)
603

1
@ user603 Zgadzam się, dość często jest to - ale znalezienie usuwanie
Glen_b

3
(+1) Dobra odpowiedź, ale szkoda, że ​​nie wspominasz o żadnych metodach solidnej regresji. Np. W jaki sposób narysowano zieloną linię na prawym wykresie podrzędnym (i dlaczego wolisz ten algorytm od innych)? Może ten link może się tu przydać: szybka regresja liniowa odporna na wartości odstające - prawdopodobnie najlepszy wątek w CV omawiający silną regresję.
ameba

-2

Można zastosować regresję do wykrywania wartości odstających.

Tak. Ta odpowiedź i odpowiedź Glen_b rozwiązują ten problem.

Podstawowym celem tutaj nie jest dopasowanie modelu regresji, ale znalezienie lierów za pomocą regresji

Opierając się na komentarzu Romana Lustrika, oto heurystyka polegająca na znajdowaniu wartości odstających przy użyciu regresji (wielokrotnej liniowej).

Powiedzmy, że masz rozmiar próbki . Następnie wykonaj następujące czynności:n

  1. Dopasuj model regresji do przykładów. Zanotuj resztkową sumę błędu kwadratów .r t o t a ln rtotal

  2. Dla każdej próbki i dopasuj model regresji do przykładów n-1 (wyłączając przykład i) i zanotuj odpowiednią resztkową sumę błędu kwadratów .ri

  3. Teraz porównaj z dla każdego , jeśli , to jest odstającym kandydatem.r T O t I r I < < r T O t l Irirtotiri<<rtotali

Odkładając na bok te punkty odstające od kandydata, możemy powtórzyć całe ćwiczenie ze zredukowaną próbką. W algorytmie wybieramy przykłady w danych, które mają zły wpływ na dopasowanie regresji (co jest jednym ze sposobów oznaczenia przykładu jako wartości odstającej).


1
Czy wypróbowałeś już tę strategię w pokazanym tutaj zestawie danych ? Mówiąc bardziej ogólnie, twoja strategia sprowadza się do twierdzenia, że ​​wartości odstające można niezawodnie znaleźć na podstawie wyników łańcucha napadów minimalizujących funkcję wypukłej utraty, co jest znanym błędem, gdy występuje więcej niż jedna wartość odstająca (ten link pokazuje to dla powiązanego problemu znajdowania wielowymiarowych wartości odstających, ale wyniki dotyczą również regresji).
user603

Z przyjemnością usunę moją odpowiedź. Ale po pierwsze, nie rozumiem obu referencji, które podajesz, a ponadto nie jestem pewien, dlaczego powodują, że moja odpowiedź jest błędna. Gdzie „strategia” jest pierwszą pozycją referencyjną? Czy możesz wskazać konkretną odpowiedź? Która strona i wiersz drugiego odnośnika jest tutaj istotny i omawia „błąd”?
Theja

1
Przepraszam, mogłem tylko teraz do tego wrócić. Sekcja komentarzy jest nieco krótka, aby dać przykład i nie będę korzystać z sekcji „Odpowiedź”, ponieważ nie jest to pytanie OP. Czy miałeś czas wypróbować swoją metodologię w odniesieniu do danych, z którymi się łączyłem?
user603
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.