Kiedy można napisać „przyjęliśmy rozkład normalny” pomiaru empirycznego?

Jest zakorzenione w nauczaniu dyscyplin stosowanych, takich jak medycyna, że pomiary ilości biomedycznych w populacji są zgodne z normalną „krzywą dzwonową”. Zwraca wyszukiwane przez Google ciąg „założyliśmy rozkład normalny” $\small 23,900$ wyniki! Brzmią jak: „biorąc pod uwagę niewielką liczbę ekstremalnych punktów danych, przyjęliśmy normalny rozkład anomalii temperaturowych” w badaniu dotyczącym zmian klimatu; lub „przyjęliśmy normalny rozkład dat wylęgowych piskląt” na możliwie mniej kontrowersyjnym dokumencie na temat pingwinów; lub „przyjęliśmy normalny rozkład szoków wzrostu PKB” , odnosząc się do zmian makroekonomicznych na rynkach (przypominając sobie tę książkę , ... i inne rzeczy).

Ostatnio zastanawiałem się nad traktowaniem danych liczbowych jako normalnie rozłożonych z powodu ich ściśle pozytywnego charakteru. Oczywiście dane zliczania są dyskretne, co czyni ich normalność jeszcze bardziej sztuczną. Ale nawet pomijając ten ostatni punkt, dlaczego ciągłe pomiary empiryczne, takie jak waga, wzrost lub stężenie glukozy, uważane za prototypowo „ciągłe”, należy uważać za normalne? Nie mogą mieć negatywnych spostrzeżeń tak samo jak liczby!

Rozumiem, że gdy odchylenie standardowe jest znacznie niższe niż średnia, co wskazuje na kilka wartości ujemnych („95% kontrola zakresu”), może to być praktyczne założenie, a histogramy częstotliwości mogą je wspierać, jeśli nie są zbyt wypaczone. Ale pytanie nie wydawało się trywialne, a szybkie wyszukiwanie przyniosło ciekawe rzeczy.

W Nature możemy znaleźć następujące oświadczenie w liście DF Heatha : „Chciałbym zaznaczyć, że w przypadku analizy statystycznej niektórych rodzajów danych założenie, że dane pochodzą z normalnej populacji, jest zwykle błędne, i że alternatywa założenie, że rozkład logarytmiczno-normalny jest lepszy. Ta alternatywa jest szeroko stosowana przez statystyków, ekonomistów i fizyków, ale z jakiegoś powodu jest często ignorowana przez naukowców z innych dyscyplin ”.

Limpert zauważa, że „model logarytmiczno-normalny może służyć jako przybliżenie w tym sensie, że wielu naukowców postrzega normę jako prawidłową aproksymację” , jednocześnie zauważając niską moc testów dobroci dopasowania normalności i trudność w wyborze właściwy rozkład empiryczny w przypadku małych próbek.

Dlatego pytanie brzmi: „Kiedy można przyjąć normalny rozkład pomiaru empirycznego w naukach stosowanych bez dalszych dowodów potwierdzających?” I, dlaczego inne alternatywy, takie jak log-normal, nie mają i prawdopodobnie po prostu się nie sprawdzą?

— Antoni Parellada
źródło

Odpowiedź zależy od tego, co robisz, i od wrażliwości na potencjalne odchylenia od normalności (tj. Jeśli testujesz równość wariancji za pomocą testu F stosunku, lepiej byś miał rozkłady, które są bardzo zbliżone do normalnego ... ale jeśli konstruujesz przedział t dla różnicy średnich, przy dużych próbkach, może nie być wcale konieczne, aby były bardzo zbliżone do normalności). ... i na twoją tolerancję (lub twoją publiczność) dla rodzaju wpływu, jaki miałby na wnioskowanie.

— Glen_b

Uważam, że twoje pytanie jest naprawdę interesujące. Weźmy pod uwagę kilka rzeczy:

Stwierdzenie, że obserwowana zmienna jest ciągła w prawdziwym życiu, zawsze będzie w pewnym sensie błędne, ponieważ bardzo trudno jest zmierzyć naprawdę w sposób ciągły.
Teraz dodaj właściwości normalnej zmiennej losowej $N(\mu, \sigma^2)$ : zasięg $(-\infty; +\infty)$ , rozkład symetryczny (średnia = tryb = mediana), funkcja gęstości prawdopodobieństwa $f_X(x)$ ma punkty przegięcia na $x = \mu - \sigma$ i $x = \mu + \sigma$ .
Powiedzieć, że zmienna losowa $X$ następuje rozkład Log-Normal oznacza, że zmienna $Y=log(X)$ zachowuje normalny rozkład.

Powiedziawszy to, powiedzenie, że każda obserwowana zmienna podąża za rozkładem normalnym lub log-normalnym, brzmi trochę szalenie. W praktyce mierzysz odchylenia obserwowanych częstotliwości od częstotliwości oczekiwanych, jeśli zmienna pochodzi z populacji normalnej (lub innej dystrybucji). Jeśli możesz powiedzieć, że te odchylenia są przypadkowe, ponieważ próbujesz, możesz powiedzieć, że nie ma wystarczających dowodów, aby odrzucić hipotezę zerową, że ta zmienna pochodzi z normalnej populacji , co jest tłumaczone na to, że będziemy działać ( przy założeniu, że) zmienna ma rozkład normalny .

Odpowiadając na twoje pierwsze pytanie, nie sądzę, aby ktoś tak odważnie stwierdził, że zmienna jest zwykle dystrybuowana bez dalszych dowodów . Aby powiedzieć coś takiego, potrzebujesz co najmniej wykresu qq, histogramu, testu dobroci dopasowania lub ich kombinacji.

Aby odpowiedzieć na drugie pytanie, szczególne zainteresowanie rozkładem normalnym polega na tym, że wiele klasycznych testów opiera się na założeniu normalności zmiennej, takiej jak test t lub $\chi^2$ -test dla wariancji. Normalność upraszcza pracę, to wszystko.

— toneloy
źródło

Dziękuję za odpowiedź, która dotyczy wielu kluczowych punktów. Jednak wydaje mi się, że rzeczy w „prawdziwym świecie” nauk stosowanych są mniej ustrukturyzowane i często przyjmuje się bezpośrednią styczną, by przyjąć normalność.

— Antoni Parellada

Coś, o czym nie wspomniałem, to druga część historii, jeśli rozkład normalny: jest to rozkład graniczny standaryzacji sumy zmiennych losowych iid, jak stwierdzono w twierdzeniu o granicy centralnej. Jeśli możesz powiedzieć, że twoja zmienna jest sumą wielu losowych zmiennych, takich jak w rozumowaniu ruchu Browna, możesz powiedzieć, że jest to normalna zmienna losowa. To jedyny ważny skrót, jaki znam. Mogę to uwzględnić w odpowiedzi, jeśli chcesz.

— toneloy