Dlaczego często przyjmuje się rozkład Gaussa?


14

Cytując z artykułu z Wikipedii na temat szacowania parametrów naiwnego klasyfikatora Bayesa : „typowym założeniem jest to, że ciągłe wartości związane z każdą klasą są rozkładane zgodnie z rozkładem Gaussa”.

Rozumiem, że rozkład Gaussa jest dogodny ze względów analitycznych. Czy istnieje jednak jakiś inny powód, aby przyjąć takie przypuszczenie? Co jeśli populacja składa się z dwóch subpopulacji (inteligentni / głupi ludzie, duże / małe jabłka)?


5
Być może z powodu centralnego twierdzenia granicznego rozkłady Gaussa pasują do wielu, choć wcale nie wszystkich, pomiarów zjawisk fizycznych? W subpopulacjach można uzyskać mieszaniny rozkładów Gaussa.
Dilip Sarwate,

1
Ta sama sekcja (zakładam, że przeglądasz artykuł Naive Bayes) wskazuje, że binowanie jest prawdopodobnie lepszym pomysłem, jeśli nie znasz dystrybucji. Ktoś powinien prawdopodobnie edytować artykuł w Wikipedii, aby wyjaśnić, że należy założyć gaussa, tylko jeśli może się spierać, dlaczego jest gaussowski (np. Wykreślić dane lub postępuje zgodnie z addytywnym wzorcem CLT).
rm999

Odpowiedzi:


6

Przynajmniej dla mnie założenie o normalności wynika z dwóch (bardzo potężnych) powodów:

  1. Twierdzenie o granicy centralnej.

  2. Rozkład Gaussa jest rozkładem maksymalnej entropii (w odniesieniu do ciągłej wersji entropii Shannona).

Myślę, że zdajesz sobie sprawę z pierwszego punktu: jeśli twoja próbka jest sumą wielu procesów, to dopóki spełnione są pewne łagodne warunki, rozkład jest prawie gaussowski (istnieją uogólnienia CLT, w których tak naprawdę nie należy założyć, że wartości RV sumy są identycznie rozłożone, patrz np. CLT Lyapunova).

Drugi punkt to taki, który dla niektórych osób (szczególnie fizyków) ma większy sens: biorąc pod uwagę pierwszy i drugi moment rozkładu, rozkład, który zakłada mniej informacji (tj. Najbardziej konserwatywny) w odniesieniu do ciągłej miary entropii Shannona (która jest nieco arbitralne w przypadku ciągłym, ale, przynajmniej dla mnie, całkowicie obiektywne w przypadku dyskretnym, ale to inna historia), rozkład Gaussa. Jest to forma tak zwanej „zasady maksymalnej entropii”, która nie jest tak rozpowszechniona, ponieważ faktyczne użycie formy entropii jest nieco arbitralne ( więcej informacji na temat tego środka można znaleźć w tym artykule w Wikipedii ).

Oczywiście to ostatnie stwierdzenie jest prawdziwe również w przypadku wielowymiarowym, tzn. Maksymalny rozkład entropii (ponownie, w odniesieniu do ciągłej wersji entropii Shannona) podany jako pierwszy ( ) i informacje drugiego rzędu ( tj. macierz kowariancji ), można wykazać jako zmienną gaussowską na wielu odmianach. ΣμΣ

PD: Muszę dodać do zasady maksymalnej entropii, że zgodnie z tym artykułem , jeśli zdarzy ci się znać zakres zmienności swojej zmiennej, musisz dokonać korekty rozkładu, który otrzymujesz zgodnie z zasadą maksymalnej entropii.


3

Moja odpowiedź zgadza się z pierwszym respondentem. Twierdzenie o limicie centralnym mówi ci, że jeśli twoja statystyka jest sumą lub średnią, będzie w przybliżeniu normalna w pewnych warunkach technicznych, niezależnie od rozkładu poszczególnych próbek. Ale masz rację, że czasami ludzie przenoszą to za daleko tylko dlatego, że wydaje się to wygodne. Jeśli twoja statystyka jest współczynnikiem, a mianownik może wynosić zero lub być blisko tego, stosunek będzie zbyt ciężki dla normy. Gosset odkrył, że nawet jeśli próbkujesz z rozkładu normalnego, znormalizowaną średnią, gdy do stałej normalizacyjnej stosuje się standardowe odchylenie próbki, rozkład jest rozkładem t z n-1 stopniami swobody, gdy n jest rozmiarem próbki. W swoich eksperymentach terenowych w browarze Guiness ma próbki o wielkości od 5 do 10. W tych przypadkach rozkład t jest podobny do standardowego rozkładu normalnego, ponieważ jest symetryczny względem 0, ale ma znacznie cięższe ogony. Zauważ, że rozkład t zbiega się ze standardową normą, gdy n staje się duże. W wielu przypadkach rozmieszczenie może być bimodalne, ponieważ jest to mieszanina dwóch populacji. Czasami te rozkłady mogą być dopasowane jako mieszanina rozkładów normalnych. Ale na pewno nie wyglądają jak normalny rozkład. Jeśli spojrzysz na podstawowy podręcznik statystyki, znajdziesz wiele parametrycznych ciągłych i dyskretnych rozkładów, które często rodzą problemy wnioskowania. Dla danych dyskretnych mamy dwumianowy, Poissona, geometryczny, hipergeometryczny i ujemny dwumianowy, żeby wymienić tylko kilka. Ciągłe przykłady obejmują kwadrat chi, logarytm normalny, Cauchy'ego, wykładniczy ujemny, Weibulla i Gumbela.


2

Zastosowanie CLT do uzasadnienia zastosowania rozkładu Gaussa jest powszechnym błędem, ponieważ CLT stosuje się do średniej próbki, a nie do indywidualnych obserwacji. Dlatego zwiększenie wielkości próbki nie oznacza, że ​​próbka jest bliższa normalności.

Rozkład Gaussa jest powszechnie stosowany, ponieważ:

  1. Oszacowanie maksymalnego prawdopodobieństwa jest proste.
  2. Wnioskowanie bayesowskie jest proste (przy użyciu priorów sprzężonych lub priorów typu Jeffreys).
  3. Jest zaimplementowany w większości pakietów numerycznych.
  4. Istnieje wiele teorii na temat tego rozkładu w zakresie testowania hipotez.
  5. Brak wiedzy o innych opcjach (bardziej elastyczny). ...

Oczywiście najlepszą opcją jest użycie dystrybucji uwzględniającej cechy twojego kontekstu, ale może to być trudne. Jednak ludzie powinni to robić

„Wszystko powinno być tak proste, jak to możliwe, ale nie prostsze”. (Albert Einstein)

Mam nadzieję, że to pomoże.

Wszystkiego najlepszego.


Dlaczego głosowanie negatywne? czym jest kontrargument dla tego wyjaśnienia?
lmsasu

4
Przekonanie, że „użycie CLT do uzasadnienia zastosowania rozkładu Gaussa jest powszechnym błędem, ponieważ CLT jest stosowane do średniej próby” jest samo w sobie błędem. Na przykład elektrony w przewodniku poruszają się losowo. Mały ładunek każda przyczynia elektronów netto szum napięcia (zwanego szum cieplny), które może być mierzone na końcówkach przewodu. Każdy wkład jest niewielki, jest wiele elektronów, a więc za pomocą CLT szum jest modelowany jako losowy proces Gaussa. Ten model został sprawdzony krzyżowo w licznych badaniach eksperymentalnych.
Dilip Sarwate,

1
Ten pierwszy akapit jest mylący i wydaje się nie na temat. Stosując CLT często mówimy, że rozkład jest gaussowski, ponieważ każda indywidualna obserwacja jest sumą / średnią wielu procesów. Gdyby usunąć pierwszy akapit, myślę, że to byłaby dobra odpowiedź.
rm999

1
@ rm999 „Gdyby usunąć pierwszy akapit, myślę, że byłaby to dobra odpowiedź”. W rzeczywistości pierwszy akapit stanowi sedno odpowiedzi, ponieważ pozostałe wskazują jedynie, w jaki sposób model Gaussa jest pomocny analitycznie - co OP już rozumie - i nie odpowiada na zadane pytanie.
Dilip Sarwate,

1
@Dilip: (+1) Jądro bardzo dobrej odpowiedzi znajduje się w twoim pierwszym komentarzu. Rozważ rozwinięcie go w osobnym poście.
kardynał
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.