Zakres wartości skośności i kurtozy dla rozkładu normalnego

Chcę wiedzieć, jaki jest zakres wartości skośności i kurtozy, dla których dane są uważane za normalnie rozłożone.

Przeczytałem wiele argumentów i przeważnie miałem pomieszane odpowiedzi. Niektórzy mówią, że skośność i dla kurtozy jest dopuszczalnym zakresem normalnego rozkładu. Niektórzy mówią że skośność jest dopuszczalnym zakresem. Znalazłem tutaj szczegółową dyskusję: Jaki jest dopuszczalny zakres skośności i kurtozy dla normalnego rozkładu danych dotyczących tego problemu. Ale nie mogłem znaleźć żadnego decydującego stwierdzenia. $(-1,1)$ $(-2,2)$ $(-1.96,1.96)$

Jaka jest podstawa do podjęcia decyzji o takim odstępie czasu? Czy to subiektywny wybór? A może kryje się za tym matematyczne wytłumaczenie?

normal-distribution skewness kurtosis

— Mroczny rycerz
źródło

Co lub kto definiuje „akceptowalny”?

— Glen_b

To dobre pytanie. Nie mam na to jednoznacznej odpowiedzi.

— Dark_Knight

Czy mam rację, sądząc, że za twoim pytaniem kryje się jakaś domniemana metoda, coś w stylu: „Przed oszacowaniem tego modelu / wykonaniem tego testu sprawdź skośność próbki i kurtozę. Jeśli oba mieszczą się w określonych wcześniej zakresach, użyj normalna procedura teoretyczna, w przeciwnym razie użyj czegoś innego. ” ...

— Glen_b

Jeśli tak, to na jakich procedurach przy normalnych założeniach możesz zastosować takie podejście? Jakie zmienne byś to sprawdził? Jakich alternatywnych procedur użyłbyś, gdybyś stwierdził, że według niektórych kryteriów nie są one „dopuszczalne”?

— Glen_b

Ponadto - i może to być ważne w kontekście, szczególnie w przypadkach, w których oferowane jest pewne rozumowanie przy wybieraniu pewnych granic - czy możesz dołączyć dowolne cytaty, z których pochodzą takie zakresy, które możesz uzyskać (zwłaszcza gdy sugerowane zakresy są dość różne)? Jedna rzecz, którą warto wiedzieć z takiego kontekstu - do jakich sytuacji używają tego rodzaju rzeczy?

— Glen_b

Odpowiedzi:

Oryginalny post pomija kilka głównych punktów: (1) Żadne „dane” nigdy nie mogą być normalnie rozpowszechniane. Dane są z konieczności dyskretne. Prawidłowe pytanie brzmi: „czy proces, który wytworzył dane, jest procesem normalnie rozproszonym?” Ale (2) odpowiedź na drugie pytanie brzmi zawsze „nie”, niezależnie od tego, co daje ci test statystyczny lub inna ocena oparta na danych. Normalnie rozproszone procesy wytwarzają dane z nieskończoną ciągłością, idealną symetrią i precyzyjnie określonymi prawdopodobieństwami w standardowych zakresach odchyleń (np. 68-95-99,7), z których żaden nie jest nigdy dokładnie zgodny z procesami, które dają podstawę do danych, które możemy zmierzyć czymkolwiek urządzenie pomiarowe, którego ludzie mogą używać.

Tak więc nigdy nie można uznać, że dane są normalnie dystrybuowane, i nigdy nie można uważać procesu, który wytworzył dane, za dokładnie precyzyjnie rozproszony proces. Ale, jak wskazał Glen_b, może to nie mieć większego znaczenia, w zależności od tego, co próbujesz zrobić z danymi.

Statystyki skośności i kurtozy mogą pomóc ocenić pewne rodzaje odchyleń od normalności procesu generowania danych. Są to jednak bardzo zmienne statystyki. Podane powyżej standardowe błędy są nieprzydatne, ponieważ są prawidłowe tylko w normalności, co oznacza, że są użyteczne jedynie jako test normalności, ćwiczenie zasadniczo bezużyteczne. Lepiej byłoby użyć bootstrapu, aby znaleźć se, chociaż duże próbki byłyby potrzebne, aby uzyskać dokładne se.

Również kurtoza jest bardzo łatwa do interpretacji, w przeciwieństwie do powyższego postu. Jest to średnia (lub oczekiwana wartość) wartości Z, każda wzięta do czwartej potęgi. Large | Z | wartości są wartościami odstającymi i w znacznym stopniu przyczyniają się do kurtozy. Small | Z | wartości, gdzie „szczyt” rozkładu, daje wartości Z ^ 4, które są małe i nie przyczyniają się zasadniczo do kurtozy. W moim artykule https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ udowodniłem, że kurtoza jest bardzo dobrze przybliżona przez średnią wartości Z ^ 4 * I (| Z |> 1). Dlatego kurtoza mierzy skłonność procesu generowania danych do generowania wartości odstających.

— Peter Westfall
źródło

Aby wyjaśnić, co dokładnie rozumiesz przez „normalnie rozproszony proces”? Rozumiem, co mówisz o dyskrecji i ciągłości zmiennych losowych, ale co z założeniem dotyczącym rozkładu normalnego, które można wykonać za pomocą twierdzenia o granicy centralnej?

— Dark_Knight

CLT nie ma tu znaczenia - mówimy o rozkładzie, który generuje indywidualne wartości danych, a nie średnie. „Normalnie dystrybuowany proces” to proces, który wytwarza normalnie rozmieszczone losowe zmienne. Przykładem może być doskonały komputerowy generator liczb losowych (coś takiego nie istnieje, ale są one naprawdę dobre w używanym przez nas oprogramowaniu).

— Peter Westfall,

Ponadto, ponieważ żaden proces, który generuje dane, które możemy analizować, nie jest normalnym procesem, wynika również z tego, że rozkład średnich uzyskanych przez taki proces również nigdy nie jest dokładnie normalny, niezależnie od wielkości próbki. Ale tak, rozkłady takich średnich mogą być zbliżone do rozkładów normalnych zgodnie z CLT. Bliskość takich rozkładów do normalnych zależy od (i) wielkości próby oraz (ii) stopnia nienormalności procesu generowania danych, który wytwarza poszczególne wartości danych.

— Peter Westfall,

Cześć Peter - czy możesz uniknąć odniesień takich jak „powyższe”, ponieważ kolejność sortowania ulegnie zmianie. To, co jest dla ciebie wyższe, może nie być wyższe dla następnej osoby. Jeśli masz na myśli post Gunga lub mój (wciąż w trakcie edycji, ponieważ pracuję nad wieloma jego aspektami), możesz po prostu zidentyfikować je według autora.

— Glen_b

Wydaje się, że w powyższym stwierdzeniu, że wyższa kurtoza implikuje wyższą tendencję do tworzenia wartości odstających. O ile nie zdefiniujesz wartości odstających tautologicznie (tj. Aby twierdzenie było prawdziwe), nie jest to stwierdzenie, które jest prawdziwe w ogólnym przypadku. Na przykład dość łatwo jest zbudować pary rozkładów, w których ta z cięższym ogonem ma niższą kurtozę.

— Glen_b

Wydaje się, że o to pytasz, to standardowy błąd skośności i kurtozy próbki pobranej z normalnej populacji. Zauważ, że istnieją różne sposoby szacowania rzeczy, takie jak skośność lub tłuszczowanie ( kurtoza ), co oczywiście wpłynie na to, jaki będzie standardowy błąd. Najczęstsze środki, o których ludzie myślą, są bardziej znane jako trzecia i czwarta znormalizowana chwila.

$[1, \infty)$ $3$ ${\rm kurtosis} - 3$ $[-2, \infty)$ ${\rm skewness}^2 + 1$ $24/N$ $0$

Za to, co jest warte, standardowe błędy to:

\begin{aligned} S. mi (s k mi w n mi s s) & = \sqrt{\frac{6 N. (N. - 1)}{(N. - 2)) (N. + 1) (N. + 3))}} \\ S. mi (k u r t o s ja s) & = 2) \times S. mi (s k mi w n mi s s) \sqrt{\frac{{N.}^{2)} - 1}{(N. - 3)) (N. + 5)}} \end{aligned}

$\begin{align} SE({\rm skewness}) &= \sqrt{\frac{6N(N-1)}{(N-2)(N+1)(N+3)}} \\[10pt] SE({\rm kurtosis}) &= 2\times SE({\rm skewness})\sqrt{\frac{N^2-1}{(N-3)(N+5)}} \end{align}$

$0$

$<|.5|$
$[|.5|, |1|)$
$\ge |1|$

Dobry wstępny opis skośności i kurtozy można znaleźć tutaj .

— gung - Przywróć Monikę
źródło

[W dalszej części zakładam, że proponujesz coś w rodzaju „sprawdź skośność próbki i kurtozę, jeśli oba mieszczą się w określonych wcześniej zakresach, użyj normalnej procedury teoretycznej, w przeciwnym razie użyj czegoś innego”.]

Jest w tym wiele aspektów, z których będziemy mieli miejsce tylko na kilka uwag. Zacznę od przedstawienia, jak uważam, ważnych kwestii, na które warto zwrócić uwagę, zanim przejdę do zastosowania takiego kryterium. Spróbuję później wrócić i napisać trochę o każdym elemencie:

Zagadnienia do rozważenia

Jak bardzo różne rodzaje nienormalności mają znaczenie dla tego, co robimy?
Jak trudno jest wychwycić te odchylenia za pomocą zakresów skośności próbki i kurtozy?

Jedna rzecz, z którą zgadzam się we wniosku - dotyczy pary miar związanych z rozmiarem efektu ( o ile odchylenie od normalności), a nie o znaczeniu. W tym sensie zbliży się do rozwiązania czegoś pożytecznego, co zrobiłby test formalnej hipotezy, który będzie miał tendencję do odrzucania nawet błahych odchyleń przy dużych rozmiarach próby, oferując jednocześnie fałszywe pocieszenie braku odrzucenia znacznie większych (i bardziej wpływowych) odchyleń przy małe rozmiary próbek. (Testy hipotez rozwiązują tutaj niewłaściwe pytanie).

Oczywiście przy małych próbkach jest to nadal problematyczne w tym sensie, że pomiary są bardzo „hałaśliwe”, więc nadal możemy zostać wprowadzeni w błąd (przedział ufności pomoże nam zobaczyć, jak źle może być).

Nie mówi nam, w jaki sposób odchylenie skośności lub kurtozy odnosi się do problemów z czymkolwiek, od czego chcemy normalności - a różne procedury mogą być zupełnie różne w swoich reakcjach na nienormalność.

Nie pomaga nam to, gdy nasze odstępstwo od normalności jest na tyle, że skośność i kurtoza będą ślepe.
Jeśli wykorzystujesz te przykładowe statystyki jako podstawę do podjęcia decyzji między dwiema procedurami, jaki jest wpływ na właściwości wynikowego wnioskowania (np. W przypadku testu hipotez, jak wygląda twój poziom istotności i moc?)
Istnieje nieskończona liczba rozkładów, które mają dokładnie taką samą skośność i kurtozę jak rozkład normalny, ale są wyraźnie nienormalne. Nie muszą nawet być symetryczne! Jak istnienie takich rzeczy wpływa na stosowanie takich procedur? Czy przedsiębiorstwo jest skazane od samego początku?
Jaką zmienność skosu próbki i kurtozy można zobaczyć w próbkach pobranych z rozkładów normalnych? (Jaką część normalnych próbek ostatecznie wyrzucilibyśmy według jakiejś reguły?)

[Częściowo ten problem jest związany z niektórymi rozważaniami Gunga w jego odpowiedzi.]
Czy może być coś lepszego do zrobienia zamiast tego?

Wreszcie, jeśli po rozważeniu wszystkich tych kwestii zdecydujemy, że powinniśmy zastosować to podejście, dochodzimy do rozważań wynikających z twojego pytania:

jakie są dobre warunki dla skośności i kurtozy dla różnych procedur? O jakie zmienne musimy się martwić, w których procedurach?

(np. jeśli wykonujemy regresję, zwróć uwagę, że niewłaściwe jest radzenie sobie z dowolnym IV, a nawet surowym DV w ten sposób - zakłada się, że żaden z nich nie został pobrany ze zwykłego rozkładu normalnego)

Wrócę i dodam kilka przemyśleń, ale wszelkie komentarze / pytania, które masz w międzyczasie, mogą być przydatne.

— Glen_b - Przywróć Monikę
źródło

0

$0$

Nie rozumiem też, dlaczego potrzebujemy określonego zakresu wartości dla skośności i kurtozy do wykonania jakiegokolwiek testu normalności?

— Dark_Knight