+1 do @NickSabbe, ponieważ „fabuła mówi tylko, że„ coś jest nie tak ”, co jest często najlepszym sposobem na użycie qq-plot (ponieważ może być trudno zrozumieć, jak je interpretować). Można jednak nauczyć się interpretować wykres qq, myśląc o tym, jak go utworzyć.
Najpierw posortuj dane, a następnie policz w górę od wartości minimalnej, biorąc każdy za równy procent. Na przykład, jeśli miałeś 20 punktów danych, licząc pierwszy (minimum), powiedziałbyś sobie: „Policzyłem 5% moich danych”. Postępowałeś zgodnie z tą procedurą, aż dotrzesz do końca, w którym to momencie przeszedłbyś przez 100% swoich danych. Te wartości procentowe można następnie porównać z tymi samymi wartościami procentowymi z odpowiadającej teoretycznej normy (tj. Normy z tą samą średnią i SD).
Kiedy zaczniesz je kreślić, odkryjesz, że masz problemy z ostatnią wartością, która wynosi 100%, ponieważ kiedy przekroczysz 100% teoretycznej normalnej, jesteś w nieskończoności. Problem ten rozwiązano przez dodanie małej stałej do mianownika w każdym punkcie danych przed obliczeniem procentów. Typową wartością byłoby dodanie 1 do mianownika; na przykład nazwałbyś swój pierwszy (z 20) punktów danych 1 / (20 + 1) = 5%, a twój ostatni to 20 / (20 + 1) = 95%. Teraz, jeśli narysujesz te punkty względem odpowiadającej im teoretycznej normy, otrzymasz wykres pp(do wykreślania prawdopodobieństw względem prawdopodobieństw). Taki wykres najprawdopodobniej pokazuje odchylenia między rozkładem a normalną w środku rozkładu. Wynika to z tego, że 68% normalnego rozkładu mieści się w zakresie +/- 1 SD, więc wykresy pp mają tam doskonałą rozdzielczość, a gdzie indziej słabą rozdzielczość. (Aby uzyskać więcej informacji na ten temat, pomocne może być przeczytanie mojej odpowiedzi tutaj: wykresy PP vs. wykresy QQ .)
Często najbardziej martwimy się tym, co dzieje się w ogonach naszej dystrybucji. Aby uzyskać lepszą rozdzielczość tam (a więc gorszą rozdzielczość w środku), możemy skonstruować qq-plot zamiast. Robimy to, biorąc nasze zestawy prawdopodobieństw i przepuszczając je przez odwrotność CDF rozkładu normalnego (to tak, jakbyśmy czytali tabelę Z na odwrocie książki statystyk - ty czytasz z prawdopodobieństwem i odczytujesz Z- wynik). Wynikiem tej operacji są dwa zestawy kwantyli , które można wykreślić względem siebie w podobny sposób.
@ whuber ma rację, że linia odniesienia jest następnie rysowana (zwykle) przez znalezienie najlepiej pasującej linii przez środkowe 50% punktów (tj. od pierwszego kwartylu do trzeciego). Ma to na celu ułatwienie czytania fabuły. Za pomocą tej linii możesz zinterpretować wykres jako pokazujący, czy kwantyle twojego rozkładu stopniowo odbiegają od prawdziwej normalnej, gdy poruszasz się w ogonach. (Zauważ, że położenie punktów dalej od centrum nie jest tak naprawdę niezależne od tych znajdujących się bliżej; więc fakt, że na twoim specyficznym histogramie ogony wydają się łączyć ze sobą po różnicach „ramion”, nie oznacza, że kwantyle są teraz takie same.)
x−3y−.2dane w tym ogonie twojej dystrybucji niż w teoretycznej normie. Innymi słowy:
- jeśli oba ogony skręcają się w kierunku przeciwnym do ruchu wskazówek zegara, masz ciężkie ogony ( leptokurtoza ),
- jeśli oba ogony skręcają się zgodnie z ruchem wskazówek zegara, masz lekkie ogony (platykurtosis),
- jeśli twój prawy ogon skręca się w kierunku przeciwnym do ruchu wskazówek zegara, a lewy ogon skręca się w kierunku zgodnym z ruchem wskazówek zegara, masz prawe pochylenie
- jeśli twój lewy ogon skręca się w kierunku przeciwnym do ruchu wskazówek zegara, a prawy ogon skręca w kierunku zgodnym z ruchem wskazówek zegara, masz przekrzywienie w lewo