Wyobraź sobie linię regresji dopasowaną do niektórych danych.
Teraz wyobraź sobie dodatkowy punkt danych, wartość odstającą w pewnej odległości od głównej części danych, ale taki, który leży gdzieś wzdłuż tej linii regresji.
Jeśli linia regresji miałaby zostać uzupełniona, współczynniki nie zmieniłyby się. I odwrotnie, usunięcie dodatkowej wartości odstającej miałoby zerowy wpływ na współczynniki.
Zatem wartość odstająca lub punkt dźwigni miałby zerowy wpływ, gdyby był całkowicie spójny z resztą danych i sugerowanym modelem.
W przypadku „linii” należy w razie potrzeby odczytać „płaszczyznę” lub „hiperpłaszczyznę”, ale wystarczy najprostszy przykład dwóch zmiennych i wykresu rozrzutu.
Jednak, ponieważ lubisz definicje - często wydaje się, że masz w zwyczaju w nich zbyt wiele czytać - oto moja ulubiona definicja wartości odstających:
„Wartości odstające to przykładowe wartości, które powodują zaskoczenie w stosunku do większości próby” (WN Venables i BD Ripley. 2002. Współczesne statystyki stosowane z S. New York: Springer, s. 119).
Co najważniejsze, zaskoczenie jest w umyśle obserwatora i zależy od jakiegoś milczącego lub jawnego modelu danych. Może istnieć inny model, w którym wartość odstająca wcale nie jest zaskakująca, powiedzmy, czy dane naprawdę są logarytmiczne lub gamma niż normalne.
PS Nie sądzę, aby punktom dźwigni koniecznie brakowało obserwacji sąsiednich. Na przykład mogą występować w parach.