Jaka jest różnica między wykresami prawdopodobieństwa, wykresami PP i wykresami QQ podczas próby analizy dopasowanego rozkładu do danych?
Jaka jest różnica między wykresami prawdopodobieństwa, wykresami PP i wykresami QQ podczas próby analizy dopasowanego rozkładu do danych?
Odpowiedzi:
Jak zauważa @ vector07 , wykres prawdopodobieństwa jest bardziej abstrakcyjną kategorią, której członkami są wykresy pp i wykresy qq. Omówię zatem różnicę między tymi dwoma ostatnimi. Najlepszym sposobem na zrozumienie różnic jest zastanowienie się nad ich budową i zrozumienie, że musisz rozpoznać różnicę między kwantylami rozkładu a proporcją rozkładu, przez którą przeszedłeś po osiągnięciu danego kwantyla. Zależność między nimi można zobaczyć, wykreślając funkcję dystrybucji skumulowanej (CDF) rozkładu. Weźmy na przykład standardowy rozkład normalny:
Widzimy, że około 68% osi y (region między czerwonymi liniami) odpowiada 1/3 osi x (region między niebieskimi liniami). Oznacza to, że gdy wykorzystamy proporcję rozkładu, przez który przeszliśmy, do oceny dopasowania między dwoma rozkładami (tj. Użyjemy wykresu pp), uzyskamy dużo rozdzielczości w środku rozkładów, ale mniej przy ogony. Z drugiej strony, gdy użyjemy kwantyli do oceny dopasowania między dwoma rozkładami (tj. Użyjemy wykresu qq), otrzymamy bardzo dobrą rozdzielczość na ogonach, ale mniej w środku. (Ponieważ analitycy danych są zwykle bardziej zaniepokojeni ogonami rozkładu, co będzie miało większy wpływ na wnioskowanie, na przykład, wykresy qq są znacznie bardziej powszechne niż wykresy pp).
Aby zobaczyć te fakty w działaniu, omówię budowę pp-plot i qq-plot. (W tym miejscu przechodzę też przez konstrukcję wykresu qq werbalnie / wolniej: wykres QQ nie pasuje do histogramu .) Nie wiem, czy używasz R, ale mam nadzieję, że będzie to zrozumiałe:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
Niestety, wykresy te nie są bardzo charakterystyczne, ponieważ jest niewiele danych, a my porównujemy prawdziwą normalną z prawidłowym rozkładem teoretycznym, więc nie ma nic specjalnego do zobaczenia ani w środku, ani w ogonach rozkładu. Aby lepiej zademonstrować te różnice, wykreślam rozkład t (ogoniasty) z 4 stopniami swobody, a poniżej rozkład dwumodalny. Ogony tłuszczu są znacznie bardziej charakterystyczne na wykresie qq, podczas gdy bimodalność jest bardziej charakterystyczna na wykresie pp.
Oto definicja z v8doc.sas.com :
Wykres PP porównuje empiryczną funkcję rozkładu skumulowanego zbioru danych z określoną teoretyczną funkcją rozkładu skumulowanego F (·). Wykres QQ porównuje kwantyle rozkładu danych z kwantylami znormalizowanego rozkładu teoretycznego z określonej rodziny rozkładów.
W tekście wspominają również:
Odniesienie :
SAS Institute Inc., SAS OnlineDoc®, wersja 8, Cary, NC: SAS Institute Inc., 1999