Oznaczanie wartości odstających nie jest wezwaniem do oceny (w żadnym wypadku nie musi być jednym). Biorąc pod uwagę model statystyczny, wartości odstające mają precyzyjną, obiektywną definicję: są to obserwacje, które nie są zgodne z wzorcem większości danych. Takie obserwacje należy rozdzielić na początku każdej analizy po prostu dlatego, że ich odległość od dużej ilości danych zapewnia, że będą one wywierać nieproporcjonalne przyciąganie na dowolnym modelu wielowymiarowym dopasowanym z najwyższym prawdopodobieństwem (lub w rzeczywistości dowolną inną funkcją wypukłej utraty).
Ważne jest, aby podkreślić, że wielu zmiennych odstających s nie może być po prostu niezawodnie wykryć stosując pozostałości z najmniejszych kwadratów (lub jakiegokolwiek innego modelu oszacowanego przez ML, lub jakiejkolwiek innej funkcji strat wypukłą). Mówiąc najprościej, wielowymiarowe wartości odstające można wykryć w sposób niezawodny tylko przy użyciu ich reszt z modelu dopasowanego przy użyciu procedury szacowania, która nie jest przez nie podatna.
Przekonanie, że wartości odstające będą musiały się wyróżniać w resztkach klasycznego dopasowania, plasuje się gdzieś tam, obok innych trudnych do odrzucenia statystycznych „nie”, takich jak interpretacja wartości p jako miara dowodów lub wyciąganie wniosków na populację z tendencyjnej próby. Może z wyjątkiem tego, że ten może być znacznie starszy: sam Gauss zalecił użycie solidnego estymatora, takiego jak mediana i szaleństwo (zamiast klasycznej średniej i odchyleń standardowych) do oszacowania parametrów rozkładu normalnego z głośnych obserwacji (nawet idących o ile wyprowadzanie współczynnika spójności wariata (1)).
Aby dać prosty wizualny przykład oparty na rzeczywistych danych, rozważ niesławne dane gwiazdy CYG . Czerwona linia tutaj przedstawia najmniejsze dopasowanie kwadratowe, niebieska linia dopasowanie uzyskane przy użyciu mocnego dopasowania regresji liniowej. Solidnym dopasowaniem jest tutaj dopasowanie FastLTS (2), alternatywa dla dopasowania LS, które może być użyte do wykrywania wartości odstających (ponieważ wykorzystuje procedurę szacowania, która zapewnia, że wpływ każdej obserwacji na szacowany współczynnik jest ograniczony). Kod R do jego odtworzenia to:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
Co ciekawe, w 4 odległych obserwacjach po lewej stronie nie ma nawet największych reszt w odniesieniu do dopasowania LS i wykresu QQ reszt w dopasowaniu LS (ani żadnego z narzędzi diagnostycznych pochodzących z nich, takich jak odległość Cooka lub dfbeta) nie pokazuje żadnego z nich jako problematycznego. Jest to w rzeczywistości norma: potrzebne są nie więcej niż dwie wartości odstające (niezależnie od wielkości próby), aby wyciągnąć oszacowania LS w taki sposób, że wartości odstające nie będą się wyróżniać na wykresie resztkowym. Nazywa się to efektem maskowaniai jest dobrze udokumentowany. Być może jedyną niezwykłą rzeczą w zestawie danych CYGstars jest to, że jest on dwuwymiarowy (stąd możemy użyć kontroli wizualnej, aby potwierdzić wynik solidnego dopasowania) i że tak naprawdę istnieje dobre wytłumaczenie, dlaczego te cztery obserwacje po lewej stronie są tak nienormalne.
Jest to zresztą wyjątek bardziej niż reguła: z wyjątkiem niewielkich badań pilotażowych obejmujących małe próbki i kilka zmiennych oraz gdy osoba wykonująca analizę statystyczną była również zaangażowana w proces gromadzenia danych, nigdy nie spotkałem się z przypadkiem, w którym wcześniejsze przekonania na temat tożsamość wartości odstających była w rzeczywistości prawdziwa. Nawiasem mówiąc, jest to łatwe do zweryfikowania. Niezależnie od tego, czy wartości odstające zostały zidentyfikowane za pomocą algorytmu wykrywania wartości odstających, czy też odczucie jelitowe badacza, wartości odstające są z definicji obserwacjami, które mają nieprawidłową dźwignię (lub „przyciąganie”) w stosunku do współczynników uzyskanych z dopasowania LS. Innymi słowy, wartości odstające to obserwacje, których usunięcie z próbki powinno poważnie wpłynąć na dopasowanie LS.
Chociaż nigdy osobiście tego nie doświadczyłem, w literaturze istnieje kilka dobrze udokumentowanych przypadków, w których obserwacje oznaczone jako odstające przez algorytm wykrywania wartości odstających zostały później uznane za rażące błędy lub wygenerowane przez inny proces. W każdym razie nie jest uzasadnione naukowo ani mądre usuwanie wartości odstających tylko wtedy, gdy można je w jakiś sposób zrozumieć lub wyjaśnić. Jeśli mała baza obserwacji jest tak daleko od głównego zbioru danych, że sama może samodzielnie wyciągnąć wyniki procedury statystycznej, rozsądnie (i dodam naturalne) potraktowanie jej niezależnie od tego, czy lub nie te punkty danych są również podejrzane z innych powodów.
(1): patrz Stephen M. Stigler, Historia statystyki: pomiar niepewności przed 1900 r.
(2): Obliczanie regresji LTS dla dużych zbiorów danych (2006) PJ Rousseeuw, K. van Driessen.
(3): Odporne na awarie metody wielowymiarowe (2008). Hubert M., Rousseeuw PJ i Van Aelst S. Źródło: Statist. Sci. Tom 23, 92-119.