Jak sprawdzić rozkład normalny za pomocą programu Excel do przeprowadzenia testu t?


21

Chcę wiedzieć, jak sprawdzić zestaw danych pod kątem normalności w programie Excel, tylko po to, aby sprawdzić, czy spełnione są wymagania dotyczące użycia testu t .

Dla prawego ogona należy po prostu obliczyć średnią i odchylenie standardowe, dodać 1, 2 i 3 odchylenia standardowe od średniej, aby utworzyć zakres, a następnie porównać to z normalnym 68/95 / 99,7 dla standardowego rozkładu normalnego po użyciu funkcja norm.dist w programie Excel do testowania każdej wartości odchylenia standardowego.

Czy jest lepszy sposób na sprawdzenie normalności?


Odpowiedzi:


15

Masz dobry pomysł. Można to zrobić systematycznie, kompleksowo i za pomocą stosunkowo prostych obliczeń. Wykres wyników nazywany jest normalnym wykresem prawdopodobieństwa (lub czasem wykresem PP). Dzięki niemu możesz zobaczyć znacznie więcej szczegółów niż pojawia się w innych reprezentacjach graficznych, zwłaszcza histogramach , a przy odrobinie praktyki możesz nawet nauczyć się określać sposoby ponownego wyrażania swoich danych, aby zbliżyć je do Normalnego w sytuacjach, w których jest to uzasadnione.

Oto przykład:

Arkusz kalkulacyjny z wykresem prawdopodobieństwa

Dane są w kolumnie A(i nazwane Data). Reszta to wszystkie obliczenia, chociaż można kontrolować wartość „stopnia zawiasu” używaną do dopasowania linii odniesienia do wykresu.

Ten wykres jest wykresem rozrzutu porównującym dane z wartościami, które można uzyskać za pomocą liczb narysowanych niezależnie od standardowego rozkładu normalnego. Kiedy punkty wyrównują się wzdłuż przekątnej, są zbliżone do Normalnego; odstępstwa poziome (wzdłuż osi danych) wskazują odstępstwa od normalności. W tym przykładzie punkty są niezwykle zbliżone do linii odniesienia; największy odjazd występuje przy najwyższej wartości, czyli około 1.5 jednostki na lewo od linii. Widzimy zatem na pierwszy rzut oka, że ​​dane te są bardzo zbliżone do normalnie rozmieszczonych, ale być może mają lekko „lekki” prawy ogon. Jest to całkowicie odpowiednie do zastosowania testu t.

Wartości porównania na osi pionowej są obliczane w dwóch krokach. Najpierw każda wartość danych jest uszeregowana od 1 do n , ilość danych (pokazana w Countpolu w komórce F2). Są one proporcjonalnie konwertowane na wartości z zakresu od 0 do 1 . Dobrą formułą do użycia jest(rank1/6)/(n+2/3). (Zobaczhttp://www.quantdec.com/envstats/notes/class_02/characterizing_distribution.htm,aby dowiedzieć się, skąd pochodzi.) Następnie są one konwertowane na standardowe wartości normalne za pomocąNormSInvfunkcjonować. Te wartości pojawiają się w Normal scorekolumnie. Wykres po prawej to wykres rozproszenia XY Normal Scorewzględem danych. (W niektórych źródłach zobaczysz transpozycję tego wykresu, co być może jest bardziej naturalne, ale Excel woli umieszczać kolumnę najbardziej na lewo na osi poziomej, a kolumnę najbardziej na prawo na osi pionowej, więc pozwoliłem jej robić to, co woli. )

Arkusz kalkulacyjny: normalne obliczanie wyniku

(Jak widzicie, zasymulowałem te dane z niezależnymi losowymi losowaniami z rozkładu normalnego ze średnią 5 i odchyleniem standardowym 2 Nic więc dziwnego, że wykres prawdopodobieństwa wygląda tak ładnie.) Tak naprawdę są tylko dwie formuły do ​​wpisania, które propagujesz w dół, aby dopasować dane: pojawiają się w komórkach B2:C2i opierają się na Countwartości obliczonej w komórce F2. To naprawdę wszystko, oprócz spisku.

Reszta tego arkusza nie jest konieczna, ale jest pomocna w ocenie wykresu: zapewnia wiarygodne oszacowanie linii odniesienia. Odbywa się to poprzez wybranie dwóch punktów w równej odległości od lewej i prawej strony fabuły i połączenie ich linią. W tym przykładzie punkty te stanowią trzecią tańsze i trzeci najwyższy, jak określono w 3 w Hinge Rankkomórce F3. Jako bonus, jego nachylenie i punkt przecięcia są solidnymi szacunkami odpowiednio odchylenia standardowego i średniej danych.

Aby narysować linię odniesienia, dwa skrajne punkty są obliczane i dodawane do wykresu: ich obliczenia zachodzą w kolumnach I:J, oznaczone Xi Y.

Arkusz kalkulacyjny: obliczanie linii odniesienia


Czy w przypadku formuł w kolumnie B wyjaśniłbyś powód dodania 1 i podzielenia przez 6 i 3 („+ 1/6” i „+ 1/3”)? Czy jest też powód, dla którego zdecydowałeś się podzielić przez 6 w komórce rangi zawiasu?

1/6100×1/6100×5/601/21/40.16

Formuła (ranga + 1/6) / (n + 1/3) nie wydaje się symetryczna, jak możemy się spodziewać. np. przy środkowej obserwacji 3 stopień ma wartość 2, a to sugerowałoby odpowiedni percentyl 0,65, a nie to, co wydaje się naturalne przyjąć dla obserwacji środkowej (0,5). Czy przegapiłem coś oczywistego? [Widziałem, że Tukey używa kilku różnych formuł w różnych miejscach, w tym (i-1/3) / (n + 1/3). Formuła pod twoim linkiem pasuje do wspólnego schematu (ia) / (n + 1-2a), ale formuła
podana

ran+12a
r1na011/6(r1/6)/(n+2/3)a=1/3
whuber

5

Możesz wykreślić histogram za pomocą pakietu narzędzi do analizy danych w programie Excel . Podejścia graficzne z większym prawdopodobieństwem informują o stopniu nienormalności, który zazwyczaj jest bardziej odpowiedni dla testowania założeń (patrz to omówienie normalności ).

Pakiet narzędzi do analizy danych w programie Excel zapewni również skośność i kurtozę, jeśli poprosisz o statystyki opisowe i wybierzesz opcję „statystyki podsumowujące”. Można na przykład rozważyć wartości skośności powyżej plus lub minus jeden jako formę istotnej nienormalności.

To powiedziawszy, założenie przy testach t jest takie, że reszty są zwykle rozkładane, a nie zmienne. Co więcej, są one również dość solidne, tak że nawet przy dość dużych ilościach nienormalności wartości p są nadal dość prawidłowe.


4

To pytanie również graniczy z teorią statystyki - testowanie normalności przy ograniczonych danych może być wątpliwe (chociaż wszyscy robiliśmy to od czasu do czasu).

Alternatywnie możesz spojrzeć na współczynniki kurtozy i skośności. Z Hahna i Shapiro: Modele statystyczne w inżynierii. Podano pewne tło na temat właściwości Beta1 i Beta2 (strony 42 do 49) oraz Ryc. 6-1 na stronie 197. Dodatkową teorię można znaleźć na Wikipedii (patrz Dystrybucja Pearson).

Zasadniczo musisz obliczyć tak zwane właściwości Beta1 i Beta2. Beta1 = 0 i Beta2 = 3 sugerują, że zestaw danych zbliża się do normalności. To trudny test, ale przy ograniczonych danych można argumentować, że każdy test można uznać za trudny.

Beta1 jest związana odpowiednio z momentami 2 i 3 lub wariancją i skośnością . W programie Excel są to VAR i SKEW. Gdzie ... jest twoja tablica danych, formuła jest następująca:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 związana jest odpowiednio z momentami 2 i 4 lub wariancją i kurtozą . W programie Excel są to VAR i KURT. Gdzie ... jest twoja tablica danych, formuła jest następująca:

Beta2 = KURT(...)/VAR(...)^2

Następnie możesz je porównać z wartościami odpowiednio 0 i 3. Ma to tę zaletę, że potencjalnie identyfikuje inne rozkłady (w tym rozkłady Pearsona I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Na przykład wiele powszechnie używanych rozkładów, takich jak Uniform, Normal, t-Studenta, Beta, Gamma, wykładniczy i Log-Normal można wskazać na podstawie tych właściwości:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Są one zilustrowane na rycinie 6-1 Hahna i Shapiro.

To prawda, że ​​jest to bardzo trudny test (z pewnymi problemami), ale możesz rozważyć jego wstępną kontrolę przed przejściem na bardziej rygorystyczną metodę.

Istnieją również mechanizmy dostosowawcze do obliczania Beta1 i Beta2, w których dane są ograniczone - ale to wykracza poza ten post.


Wiele z tych materiałów może działać dobrze w przypadku dużych zestawów danych i zgadzam się z twoją wstępną oceną, że testowanie normalności może być ograniczone lub wątpliwe w przypadku małych zestawów danych. Biorąc jednak pod uwagę ogromną zmienność skośności i kurtozy, wydaje się, że każdy wysiłek w celu zidentyfikowania rodzaju rozkładu podstawowego na podstawie tych statystyk byłby jeszcze bardziej wątpliwy i mniej pewny. W związku z tym, czy to podejście nie byłoby (w najlepszym razie) mylące, nawet jako wstępna kontrola?
whuber

1
Być może najlepiej jest dalej kwalifikować tę metodę: Hahn i Shapiro (jak wspomniano powyżej) zalecają ostrożność, szczególnie gdy wielkość próby jest mniejsza niż 200 - i zalecają dalszą weryfikację, na przykład tabelę częstotliwości który porównuje dopasowany rozkład z rzeczywistymi danymi. Ale moim zdaniem jest to użyteczna metoda, która może zasugerować, gdzie dane mogą znajdować się w szerokim spektrum możliwości. Użyłem go na zestawach danych nie mniejszych niż około 3000 i wbudowałem go w oprogramowanie do symulacji komputerowych, gdzie okazało się przydatne.
AsymLabs,

Widzę twoją metodę dostarczającą użytecznych informacji z zestawami danych 3000 lub wyższymi. Jednak nie ma potrzeby przeprowadzania testów dystrybucyjnych w celu oceny możliwości zastosowania testu t średniej.
whuber

Niezależnie od tego, czy ktoś postrzega to jako użyteczną technikę, tak jak ja, czy w inny sposób, jak się wydaje, jest to szybka i ugruntowana (przez Pearson) alternatywa dla testowania normalności (i aplikacji Studentów-t) w kontekst tego wątku. Nie zrozumcie mnie źle, potwierdzam i zgadzam się z waszymi obawami. Ale oboje zgodzilibyśmy się, czyż nie nie, że bez wcześniejszej informacji próba ustalenia, czy całą populację można modelować na Gaussie na podstawie bardzo małej próbki danych, jest w najlepszym wypadku strzałem w ciemność za pomocą dowolnej metody, aw najgorszym przypadku niebezpieczny.
AsymLabs,

1
Zgadza się. Mówię tylko, że jeśli próba, na małej próbce, przetestowania, czy populacja jest gaussowska, jest niebezpieczna, to co najmniej równie niebezpieczne jest użycie skosu i kurtozy w celu ustalenia, jaki może być rozkład podstawowy! W rzeczywistości wydaje się, że taka próba byłaby rzeczywiście gorsza, ponieważ opiera się na niestabilnych statystykach, takich jak kurtoza. Chociaż system Pearsona może być potężnym przewodnikiem pomagającym ludziom zidentyfikować możliwe rozkłady, zapewnia mniej wglądu niż nawet ograniczone wyświetlanie graficzne, takie jak histogramy.
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.