Czy rozkład normalny nie uwzględnia wartości ujemnych?
Poprawny. Nie ma również górnej granicy.
W jednej części mojego podręcznika jest napisane, że rozkład normalny może być dobry do modelowania wyników egzaminów.
Mimo wcześniejszych stwierdzeń czasami tak jest. Jeśli masz wiele elementów do testu, niezbyt silnie powiązanych (np. Więc nie jesteś zasadniczo tym samym pytaniem kilkanaście razy, ani nie musisz mieć każdej części wymagającej poprawnej odpowiedzi na poprzednią część) i nie jest to bardzo łatwe lub bardzo trudne ( tak, że większość znaków znajduje się gdzieś pośrodku), wówczas znaki mogą często być dość dobrze przybliżone przez normalny rozkład; często na tyle dobrze, że typowe analizy nie powinny budzić obaw.
Wiemy na pewno, że nie są one normalne , ale nie stanowi to automatycznie problemu - o ile zachowanie procedur, które stosujemy, są wystarczająco zbliżone do tego, jakie powinny być dla naszych celów (np. Standardowe błędy, przedziały ufności, poziomy istotności i moc - zależnie od tego, co jest potrzebne - rób to, czego oczekujemy)
W następnej części pyta się, jaka dystrybucja byłaby odpowiednia do modelowania roszczenia z tytułu ubezpieczenia samochodu. Tym razem powiedziano, że odpowiednie rozkłady będą gamma lub odwrotne gaussowskie, ponieważ są one ciągłe z jedynie dodatnimi wartościami.
Tak, ale co więcej - mają tendencję do silnego pochylania, a zmienność zwykle rośnie, gdy średnia staje się większa.
Oto przykład rozkładu wielkości roszczenia dla roszczeń pojazdów:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Ryc. 5 z Garrido, Genest & Schulz (2016) „Uogólnione modele liniowe dla zależnej częstotliwości i dotkliwości roszczeń ubezpieczeniowych”, Ubezpieczenia: Matematyka i ekonomia, tom 70, wrzesień, str. 205–215. Https: //www.sciencedirect com / science / article / pii / S0167668715303358 )
To pokazuje typowy przekrzywiony prawy i ciężki prawy ogon. Musimy jednak być bardzo ostrożni, ponieważ jest to rozkład krańcowy i piszemy model rozkładu warunkowego , który zwykle będzie znacznie mniej przekrzywiany (rozkład krańcowy, na który patrzymy, jeśli wykonamy tylko histogram rozmiarów oświadczeń będących mieszaniną tych rozkładów warunkowych). Niemniej jednak zwykle jest tak, że jeśli spojrzymy na wielkość twierdzenia w podgrupach predyktorów (być może kategoryzujących zmienne ciągłe), to rozkład jest nadal silnie prawy i dość ostry po prawej stronie, co sugeruje, że coś w rodzaju modelu gamma * jest prawdopodobnie będzie znacznie bardziej odpowiedni niż model Gaussa.
* może istnieć dowolna liczba innych rozkładów, które byłyby bardziej odpowiednie niż Gaussa - odwrotny Gaussian to inny wybór - choć mniej powszechny; Modele lognormal lub Weibull, chociaż nie są GLM-ami, mogą być całkiem przydatne.
[Rzadko zdarza się, aby którakolwiek z tych dystrybucji była prawie idealna; są niedokładnymi przybliżeniami, ale w wielu przypadkach są wystarczająco dobre, aby analiza była przydatna i miała zbliżone do pożądanych właściwości.]
Uważam, że wyniki egzaminów byłyby również ciągłe z dodatnimi wartościami, więc dlaczego mielibyśmy stosować tam rozkład normalny?
Ponieważ (w warunkach, o których wspomniałem wcześniej - wiele komponentów, niezbyt zależnych, nie trudnych lub łatwych) dystrybucja jest raczej zbliżona do symetrycznej, unimodalnej i niezbyt ciężkiej.