Przeprowadziłem wiele badań dotyczących wartości odstających, szczególnie gdy pracowałem nad walidacją danych energetycznych w Oak Ridge od 1978 do 1980 r. Istnieją formalne testy dla jednowymiarowych wartości odstających dla normalnych danych (np. Test Grubbsa i test współczynnika Dixona). Istnieją testy dla wielowymiarowych wartości odstających i szeregów czasowych. Książka Barnetta i Lewisa o „wartościach odstających w danych statystycznych” jest biblią o wartościach odstających i obejmuje prawie wszystko.
Kiedy pracowałem w Oak Ridge nad weryfikacją danych, mieliśmy duże wielowymiarowe zestawy danych. Dla jednowymiarowych wartości odstających istnieje kierunek skrajności (wysoko powyżej średniej i znacznie poniżej średniej). Jednak w przypadku wielowymiarowych wartości odstających istnieje wiele kierunków poszukiwania wartości odstających. Naszą filozofią było rozważenie, jakie jest zamierzone wykorzystanie danych. Jeśli próbujesz oszacować pewne parametry, takie jak korelacja dwuwymiarowa lub współczynnik regresji, to chcesz spojrzeć w kierunku, który zapewnia największy wpływ na parametr będący przedmiotem zainteresowania. W tym czasie czytałem niepublikowany artykuł Mallowsa na temat funkcji wpływu. Wykorzystanie funkcji wpływu do wykrywania wartości odstających jest opisane w książce analiz wielowymiarowych Gnanadesikana. Oczywiście można go również znaleźć w Barnett i Lewis.
Funkcja wpływu dla parametru jest definiowana w punktach w przestrzeni wielowymiarowej obserwacji i zasadniczo mierzy różnicę między oszacowaniem parametru, gdy punkt danych jest uwzględniany, a kiedy jest pomijany. Możesz dokonać takich oszacowań dla każdego punktu próbkowania, ale zwykle możesz uzyskać fajną funkcjonalną formę dla funkcji wpływu, która daje wgląd i szybsze obliczenia.
Na przykład w moim artykule w American Journal of Mathematical and Management Science z 1982 r. „Funkcja wpływu i jej zastosowanie do walidacji danych” przedstawiam wzór analityczny dla funkcji wpływu dla korelacji dwuwariantowej i że kontury stałego wpływu są hiperbolami. Kontury pokazują więc kierunek w płaszczyźnie, w której funkcja wpływu zwiększa się najszybciej.
W swoim artykule pokazuję, w jaki sposób zastosowaliśmy funkcję wpływu do korelacji dwuwymiarowej z danymi FPC Form 4 dotyczącymi wytwarzania i zużycia energii. Istnieje wyraźna, wysoka dodatnia korelacja między nimi, i znaleźliśmy kilka wartości odstających, które miały duży wpływ na oszacowanie korelacji. Dalsze dochodzenie wykazało, że co najmniej jeden z punktów był błędny i byliśmy w stanie go naprawić.
Ale ważną kwestią, o której zawsze wspominam, omawiając wartości odstające, jest to, że automatyczne odrzucanie jest błędne. Ta wartość odstająca nie zawsze jest błędem i czasami dostarcza ważnych informacji o danych. Prawidłowe dane nie powinny być usuwane tylko dlatego, że nie są zgodne z naszą teorią rzeczywistości. Bez względu na to, czy jest to trudne, zawsze należy zbadać powód wystąpienia wartości odstającej.
Powinienem wspomnieć, że nie jest to pierwszy przypadek, gdy wartości wielowymiarowe są omawiane na tej stronie. Poszukiwanie wartości odstających prawdopodobnie doprowadziłoby do szeregu pytań, w których omawiane były wartości wieloznaczne. Wiem, że odwoływałem się wcześniej do mojej pracy i tych książek i podałem do nich linki.
Również, gdy dyskutowane jest odrzucenie wartości odstających, wielu z nas na tej stronie odradziło to, szczególnie jeśli jest to wykonane wyłącznie na podstawie testu statystycznego. Peter Huber często wymienia solidne oszacowanie jako alternatywę dla odrzucenia wartości odstających. Chodzi o to, że solidne procedury obniżą wartości odstające, zmniejszając ich wpływ na oszacowanie, bez ciężkiego kroku polegającego na ich odrzuceniu i zastosowaniu nieszablonowego estymatora.
Funkcja wpływu została pierwotnie opracowana przez Franka Hampela w jego rozprawie doktorskiej na początku lat siedemdziesiątych (chyba 1974). Jego pomysłem było wykorzystanie funkcji wpływu do identyfikacji estymatorów, które nie były odporne na wartości odstające i aby pomóc w opracowaniu niezawodnych estymatorów.
Oto link do poprzedniej dyskusji na ten temat, w której wspomniałem o mojej pracy nad wykrywaniem wartości odstających w szeregach czasowych za pomocą funkcji wpływu.