Jedna miara skośności oparta jest na średniej medianie - drugim współczynniku skośności Pearsona .
Inna miara skośności oparta jest na względnych różnicach kwartylowych (Q3-Q2) vs (Q2-Q1) wyrażonych jako stosunek
u = 0,25
Najczęstszą miarą jest oczywiście skośność w trzeciej chwili .
Nie ma powodu, aby te trzy środki były koniecznie spójne. Każdy z nich może różnić się od pozostałych dwóch.
To, co uważamy za „skośność”, jest dość śliskie i źle zdefiniowane. Zobacz tutaj, aby uzyskać więcej dyskusji.
Jeśli spojrzymy na twoje dane za pomocą normalnego qqplot:
[Linia tam zaznaczona opiera się tylko na pierwszych 6 punktach, ponieważ chcę omówić odchylenie dwóch ostatnich od tamtego wzoru.]
Widzimy, że najmniejsze 6 punktów leży prawie idealnie na linii.
Następnie siódmy punkt znajduje się poniżej linii (bliżej środka względnie niż odpowiedni drugi punkt w lewym końcu), a ósmy punkt znajduje się znacznie powyżej.
Siódmy punkt sugeruje łagodne pochylenie w lewo, ostatnie, silniejsze pochylenie w prawo. Jeśli zignorujesz jeden punkt, wrażenie skośności jest całkowicie zdeterminowane przez drugi.
Gdybym miał powiedzieć, że to jedno lub drugie, nazwałbym to „poprawnym przekrzywieniem”, ale wskazałbym również, że wrażenie było całkowicie spowodowane efektem tego jednego bardzo dużego punktu. Bez niego naprawdę nie ma nic do powiedzenia, że jest to właściwe przekrzywienie. (Z drugiej strony, bez siódmego punktu wyraźnie nie jest to przekrzywienie.)
Musimy być bardzo ostrożni, gdy nasze wrażenie jest całkowicie determinowane przez pojedyncze punkty i można je odwrócić, usuwając jeden punkt. To nie jest duża podstawa do kontynuowania!
Zaczynam od założenia, że to, co sprawia, że wartość odstająca jest „oddalona”, to model (co jest wartością odstającą w odniesieniu do jednego modelu, może być dość typowe w innym modelu).
Myślę, że obserwacja przy 0,01 górnego percentyla (1/10000) normy (3,72 sds powyżej średniej) jest równie odstająca od normalnego modelu, jak obserwacja przy 0,01 górnego percentyla rozkładu wykładniczego dotyczy modelu wykładniczego. (Jeśli przekształcimy rozkład przez jego własną transformatę całkową prawdopodobieństwa, każdy przejdzie do tego samego munduru)
Aby zobaczyć problem ze stosowaniem reguły boxplot do nawet umiarkowanie prawidłowego rozkładu pochylenia, symuluj duże próbki z rozkładu wykładniczego.
Np. Jeśli symulujemy próbki o wielkości 100 z normalnej, uśredniamy mniej niż 1 wartość odstającą na próbkę. Jeśli robimy to wykładniczo, otrzymujemy średnią około 5. Ale nie ma prawdziwych podstaw, aby stwierdzić, że większy odsetek wartości wykładniczych jest „odstający”, chyba że robimy to w porównaniu (powiedzmy) z normalnym modelem. W szczególnych sytuacjach możemy mieć konkretne powody, aby mieć regułę odstającą w jakiejś szczególnej formie, ale nie ma ogólnej reguły, która pozostawia nam ogólne zasady, takie jak ta, którą zacząłem w tym podrozdziale - aby traktować każdy model / rozkład na własnych światłach (jeśli wartość nie jest niczym niezwykłym w odniesieniu do modelu, po co nazywać ją wartością odstającą w tej sytuacji?)
Aby przejść do pytania w tytule :
Chociaż jest to dość prymitywny instrument (dlatego spojrzałem na wykres QQ), istnieje kilka oznak skośności na wykresie pudełkowym - jeśli jest co najmniej jeden punkt oznaczony jako odstający, potencjalnie (co najmniej) trzy:
W tej próbce (n = 100) zewnętrzne punkty (zielone) zaznaczają skrajności, a środkowa sugeruje lewy skośność. Następnie ogrodzenia (niebieskie) sugerują (w połączeniu z medianą) sugerują prawy skośność. Następnie zawiasy (kwartyle, brązowe) sugerują lewy skośność w połączeniu z medianą.
Jak widzimy, nie muszą być spójne. Na czym będziesz się koncentrować, zależy od sytuacji, w której się znajdujesz (i ewentualnie twoich preferencji).
Jednak ostrzeżenie o tym, jak prymitywna jest fabuła. Przykład pod koniec tutaj - który zawiera opis sposobu generowania danych - podaje cztery całkiem różne rozkłady z tym samym wykresem pudełkowym:
Jak widać, rozkład jest dość wypaczony, a wszystkie wyżej wymienione wskaźniki skośności wykazują idealną symetrię.
-
Przyjmijmy to z punktu widzenia „jakiej odpowiedzi oczekiwał twój nauczyciel, biorąc pod uwagę, że jest to fabuła, która oznacza jeden punkt jako wartość odstającą?”.
Pozostaje nam pierwsza odpowiedź: „czy oczekują, że ocenisz skośność z wyłączeniem tego punktu, czy też z próbką?”. Niektórzy to wykluczą i ocenią skośność na podstawie tego, co pozostało, jak jsk zrobił w innej odpowiedzi. Chociaż kwestionowałem pewne aspekty tego podejścia, nie mogę powiedzieć, że jest ono złe - zależy to od sytuacji. Niektórzy to uwzględnią (zwłaszcza dlatego, że wykluczenie 12,5% próby z powodu reguły wywodzącej się z normalności wydaje się dużym krokiem *).
* Wyobraź sobie rozkład populacji, który jest symetryczny, z wyjątkiem skrajnie prawego ogona (skonstruowałem taki, by na to odpowiedzieć - normalny, ale skrajnie prawy ogon to Pareto - ale nie przedstawiłem tego w mojej odpowiedzi). Jeśli narysuję próbki o rozmiarze 8, często 7 obserwacji pochodzi z normalnie wyglądającej części, a jedna z górnej części ogona. Jeśli w takim przypadku wykluczymy punkty oznaczone jako odstające od schematu, wykluczamy punkt, który mówi nam, że tak naprawdę jest przekrzywiony! Kiedy to zrobimy, obcięty rozkład, który pozostaje w tej sytuacji, jest odchylony w lewo, a nasz wniosek byłby odwrotny do prawidłowego.