To opowieść o stopniach swobody i parametrach statystycznych oraz o tym, dlaczego miło jest, że oba mają bezpośrednie proste połączenie.
Historycznie terminy „ ” pojawiły się w badaniach Eulera dotyczących funkcji Beta. Używał tej parametryzacji do 1763 roku, podobnie jak Adrien-Marie Legendre: ich użycie ustanowiło kolejną konwencję matematyczną. Ta praca poprzedza wszystkie znane zastosowania statystyczne.−1
Współczesna teoria matematyczna dostarcza wielu wskazówek, poprzez bogactwo zastosowań w analizie, teorii liczb i geometrii, że terminy „ ” faktycznie mają pewne znaczenie. Naszkicowałem niektóre z tych powodów w komentarzach do pytania.−1
Bardziej interesujące jest to, jaka powinna być „właściwa” parametryzacja statystyczna. To nie jest tak jasne i nie musi być takie samo jak konwencja matematyczna. Istnieje ogromna sieć powszechnie używanych, znanych, powiązanych ze sobą rodzin rozkładów prawdopodobieństwa. Zatem konwencje stosowane do nazwania (to znaczy parametryzacji) jednej rodziny zwykle implikują powiązane konwencje do rodzin związanych z nazwami. Zmień jedną parametryzację, a będziesz chciał je wszystkie zmienić. Możemy zatem spojrzeć na te relacje w poszukiwaniu wskazówek.
Mało kto nie zgadza się, że najważniejsze rodziny dystrybucyjne wywodzą się z rodziny Normalnej. Przypomnijmy, że zmienna losowa jest „rozkładem normalnym”, gdy ma gęstość prawdopodobieństwa proporcjonalną do . Gdy i , mówi się, że ma standardowy rozkład normalny.( X - μ ) / σ f ( x ) exp ( - x 2 / 2 ) σ = 1 μ = 0 XX(X−μ)/σf(x)exp(−x2/2)σ=1μ=0X
Wiele zestawów danych jest badanych przy użyciu stosunkowo prostych statystyk obejmujących racjonalne kombinacje danych i niskie moce (zwykle kwadraty). Gdy dane te są modelowane jako losowe próbki z rozkładu normalnego - tak, że każdy jest postrzegany jako realizacja zmiennej normalnej , wszystkie mają wspólny rozkład i są niezależne - rozkłady tych statystyk są określone przez ten rozkład normalny. Najczęściej pojawiają się w praktycex i X i X ix1,x2,…,xnxiXiXi
t ν = n - 1 t = ˉ Xtν , rozkład Studentat z „stopniami swobody”. Jest to rozkład statystyki nazwa gdzie modeluje średnią danych i jest standardowym błędem średniej. Dzielenie przez pokazuje, że musi wynosić lub więcej, skąd jest liczbą całkowitąν=n−1ˉ X =(X1+X2+⋯+Xn)/nse(X)=(1/√
t=X¯se(X)
X¯=(X1+X2+⋯+Xn)/n n-1n2ν1se(X)=(1/n−−√)(X21+X22+⋯+X2n)/(n−1)−X¯2−−−−−−−−−−−−−−−−−−−−−−−−−−−−√n−1n2ν1albo lepszy. Formuła, choć pozornie trochę skomplikowana, jest pierwiastkiem kwadratowym z racjonalnej funkcji danych stopnia drugiego: jest względnie prosta.
χ 2 ν ν χ 2 1 / ν χ 2χ2ν , (chi-kwadrat) rozkładu z "stopni swobody" (DF). Jest to rozkład sumy kwadratów niezależnych standardowych zmiennych normalnych . Rozkład średniej kwadratów tych zmiennych będzie zatem skalowanym przez : będę to określać jako „znormalizowany” .χ2ννχ21/νχ2
F ( ν 1 , ν 2 ) χ 2 ν 1 ν 2Fν1,ν2 , Współczynnik podziału parametrów to stosunek dwóch niezależnych znormalizowane rozkładów i stopni swobody.F(ν1,ν2)χ2ν1ν2
Obliczenia matematyczne pokazują, że wszystkie trzy z tych rozkładów mają gęstości. Co ważne, gęstość jest proporcjonalna do całki w całkowej definicji Eulera funkcji Gamma ( ). Porównajmy je: Γχ2νΓ
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
To pokazuje, że dwukrotnie zmienna ma rozkład gamma z parametrem . Współczynnik połowy jest dość uciążliwy, ale odjęcie znacznie pogorszy związek. To już dostarcza przekonującej odpowiedzi na pytanie: jeśli chcemy, aby parametr zliczał liczbę kwadratowych zmiennych normalnych, które go wytwarzają (do ), to wykładnik gęstości funkcja musi być o połowę mniejsza niż ta liczba. v / 2 1 χ 2 1 / 2χ2νν/21χ21/2
Dlaczego współczynnik mniej kłopotliwy niż różnica ? Powodem jest to, że czynnik pozostanie spójny, gdy dodamy rzeczy. Jeśli suma kwadratów niezależnych normalnych norm jest proporcjonalna do rozkładu gamma z parametrem (razy jakiś czynnik), wówczas suma kwadratów niezależnych normalnych norm jest proporcjonalna do rozkładu gamma z parametrem (razy ten sam współczynnik) , skąd suma kwadratów wszystkich zmiennych jest proporcjonalna do rozkładu gamma z parametrem (wciąż razy ten sam współczynnik). 1 n n m m n + m m + n1/21nnmmn + mm + nBardzo pomocne jest to, że tak ścisłe dodanie parametrów naśladuje dodanie zliczeń.
Gdybyśmy jednak usunęli te matematycznie wyglądające „ ” ze wzorów matematycznych, te miłe relacje stałyby się bardziej skomplikowane. Na przykład, jeśli zmieniliśmy parametryzację rozkładów gamma tak, aby odnosiła się do rzeczywistej mocy we wzorze, tak że byłby powiązany z rozkładem „Gamma ” (ponieważ moc w jego PDF to ), wówczas suma trzech rozkładów musiałaby być nazwana rozkładem „Gamma ”. Krótko mówiąc, bliski związek addytywny między stopniami swobody a parametrem w rozkładach gamma zostałby utracony przez usunięciex χ 2 1 ( 0 ) x 1 - 1 = 0 χ 2 1 ( 2 ) - 1- 1xχ2)1( 0 )x1 - 1 = 0χ2)1( 2 )- 1 ze wzoru i wchłaniając go w parametrze.
Podobnie funkcja prawdopodobieństwa rozkładu współczynnika jest ściśle związana z rozkładami Beta. Rzeczywiście, gdy ma rozkład współczynnika , rozkład ma Beta . Jego funkcja gęstości jest proporcjonalna doY C Z = ν 1 T / ( ν 1 Y + ν 2 ) ( ν 1 / 2 , ν 2 / 2 )faYfaZ= ν1Y/ ( ν1Y+ ν2))( ν1/ 2, ν2)/ 2)
faZ( z) ∝ zν1/ 2-1( 1 - z)ν2)/ 2-1.
Ponadto - przyjmując te idee do pełnego koła - kwadrat rozkładu Studenta z df ma rozkład współczynnika z parametrami . Jeszcze raz widać, że utrzymanie konwencjonalnej parametryzacji utrzymuje wyraźny związek z podstawowymi liczbami, które przyczyniają się do stopni swobody.ν F ( 1 , ν )tνfa( 1 , ν)
Z statystycznego punktu widzenia byłoby więc najbardziej naturalne i najprostsze zastosowanie odmiany konwencjonalnych parametryzacji matematycznych rozkładów i Beta: powinniśmy preferować nazywanie rozkładu a „ dystrybucja ”i dystrybucja Beta należy nazwać„ dystrybucją Beta ”. W rzeczywistości już to zrobiliśmy: właśnie dlatego nadal używamy nazw „rozkład chi-kwadrat” i „ współczynnik ” zamiast „gamma” i „beta”. Niezależnie od tego w żadnym wypadku nie chcielibyśmy usunąć „ΓΓ ( 2 α )Γ ( α )Γ ( 2 α )( 2 α , 2 β ) F - 1( α , β)( 2 α , 2 β)fa- 1„terminy, które pojawiają się we wzorach matematycznych dla ich gęstości. Gdybyśmy to zrobili, stracilibyśmy bezpośredni związek między parametrami w gęstościach i liczeniem danych, z którymi są one powiązane: zawsze bylibyśmy wyłączeni o jeden.