Jaka jest podstawa definicji wartości odstającej w polu i wąsach?


17

Standardowa definicja wartości odstającej dla wykresu Box i Whisker to punkty spoza zakresu , gdzie I Q R = Q 3 - Q 1 i Q 1 to pierwszy kwartyl i Q 3 to trzeci kwartyl danych.{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

Jaka jest podstawa tej definicji? Przy dużej liczbie punktów nawet idealnie normalny rozkład zwraca wartości odstające.

Załóżmy na przykład, że zaczynasz od sekwencji:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Ta sekwencja tworzy ranking percentylowy 4000 punktów danych.

Testowanie normalności dla qnormtej serii daje:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

Wyniki są dokładnie zgodne z oczekiwaniami: normalność rozkładu normalnego jest normalna. Utworzenie qqnorm(qnorm(xseq))(zgodnie z oczekiwaniami) linii prostej danych:

qqnormalny wykres danych

Jeśli zostanie utworzony wykres pudełkowy tych samych danych, boxplot(qnorm(xseq))powstanie wynik:

wykres pudełkowy danych

Wykres pudełkowy, w przeciwieństwie do shapiro.test, ad.testlub qqnormidentyfikuje kilka punktów jako wartości odstające, gdy wielkość próbki jest wystarczająco duża (jak w tym przykładzie).


co rozumiesz przez „podstawę”? to jakaś definicja i nikt nie mówi, że całkowicie normalna dystrybucja nie ma wartości odstających
Haitao Du

2
@ hxd1011, definicja rozkładu nie może być wartością odstającą od samej siebie. Ta definicja testowania wartości odstających na pudełku i wykresie wąsów to testowanie / coś / w celu uzyskania wyniku, cokolwiek to będzie testowanie, będzie podstawą testu.
Tavrock

Myślę, że definicja wartości odstającej pola i wąsów to tylko niektóre heurystyki ... Poza tym, dlaczego definicja rozkładu nie może mieć wartości odstającej od siebie?
Haitao Du

3
Nie ma znaczenia, jaką regułę wybierzesz, w końcu powiesz „z dużą liczbą punktów, nawet całkowicie normalny rozkład zwraca wartości odstające”. [Spróbuj wymyślić sposób użytecznego identyfikowania wartości odstających, które nie mogą odrzucić żadnych punktów, jeśli
próbkujesz

1
Często powtarzaną anegdotą jest to, że John Tukey, który wymyślił tę zasadę, zapytano, dlaczego 1.5; i powiedział, że 1 byłoby za mało, a 2 byłoby za dużo. Biorąc pod uwagę liczbę razy, gdy widziałem, że jest to źle interpretowane jako ostateczne, wyrozumiałe kryterium, byłbym bardzo szczęśliwy, gdyby zniknęło. Teraz wszyscy mamy komputery, które mogą wyświetlać wszystkie dane!
Nick Cox,

Odpowiedzi:


25

Wykresy pudełkowe

Oto odpowiedni rozdział z Hoaglin, Mosteller i Tukey (2000): Zrozumienie solidnej i eksploracyjnej analizy danych. Wiley . Rozdział 3, „Wykresy pudełkowe i porównanie partii”, napisany przez Johna D. Emersona i Judith Strenio (od strony 62):

FL32dFFU+32dF

FLFUdFFUFL

Idą dalej i pokazują aplikację populacji Gaussa (strona 63):

0100.67450.67451.34943322.02352±2.69822399.3%

Więc

0.7%

Dalej piszą

[...] W ten sposób możemy ocenić, czy nasze dane wydają się grubsze niż Gaussa na podstawie liczby punktów przekraczających granice wartości odstających. [...]

Dostarczają tabelę z oczekiwaną proporcją wartości, które nie mieszczą się w wartościach granicznych odstających (oznaczone jako „Total% Out”):

Tabela 3-2

Więc te wartości graniczne nigdy nie miały być ścisłą regułą dotyczącą tego, które punkty danych są wartościami odstającymi lub nie. Jak zauważyłeś, nawet idealny rozkład normalny powinien wykazywać „wartości odstające” na wykresie pudełkowym.


Wartości odstające

O ile mi wiadomo, nie ma powszechnie przyjętej definicji wartości odstającej. Podoba mi się definicja Hawkinsa (1980):

Wartość odstająca to obserwacja, która tak bardzo odbiega od innych obserwacji, że wzbudza podejrzenia, że ​​została wygenerowana przez inny mechanizm.

Najlepiej byłoby traktować punkty danych jako wartości odstające tylko wtedy, gdy zrozumiesz, dlaczego nie należą one do reszty danych. Prosta zasada nie jest wystarczająca. Dobre traktowanie wartości odstających można znaleźć w Aggarwal (2013).

Bibliografia

Aggarwal CC (2013): Outlier Analysis. Skoczek.
Hawkins D (1980): Identification of Outliers. Chapman and Hall.
Hoaglin, Mosteller and Tukey (2000): Zrozumienie solidnej i eksploracyjnej analizy danych. Wiley.


7

Często przyjmuje się, że słowo „wartość odstająca” oznacza coś w rodzaju „wartości danych, która jest błędna, wprowadzająca w błąd, błędna lub zepsuta i dlatego powinna zostać pominięta w analizie”, ale nie to miał na myśli Tukey przez użycie wartości odstającej. Wartości odstające to po prostu punkty, które są daleko od mediany zestawu danych.

Twoja opinia o oczekiwaniu wartości odstających w wielu zestawach danych jest poprawna i ważna. I jest wiele dobrych pytań i odpowiedzi na ten temat.

Usuwanie wartości odstających z danych asymetrycznych

Czy właściwe jest identyfikowanie i usuwanie wartości odstających, ponieważ powodują one problemy?


2

Podobnie jak w przypadku wszystkich metod wykrywania wartości odstających, należy zachować ostrożność i zastanowić się, aby ustalić, które wartości są naprawdę wartościami odstającymi. Myślę, że wykres pudełkowy po prostu zapewnia dobrą wizualizację rozprzestrzeniania się danych, a wszelkie prawdziwe wartości odstające będą łatwe do złapania.


0

Myślę, że powinieneś się martwić, jeśli nie otrzymasz wartości odstających w ramach normalnej dystrybucji, w przeciwnym razie być może powinieneś szukać powodów, dla których ich nie ma. Oczywiście należy je przejrzeć, aby upewnić się, że nie rejestrują błędów, ale w przeciwnym razie należy się ich spodziewać.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.