Twierdzenie, do którego się odwołujesz (zwykła część redukcyjna „zwykła redukcja stopni swobody ze względu na parametry szacunkowe”), zostało najczęściej poparte przez RA Fishera. W „O interpretacji Chi Square z tabel nieprzewidzianych i obliczeniu P” (1922) argumentował, aby zastosować zasadę oraz w „Dobroci dopasowania wzorów regresji” ( 1922) twierdzi, że należy zmniejszyć stopnie swobody o liczbę parametrów zastosowanych w regresji w celu uzyskania oczekiwanych wartości z danych. (Warto zauważyć, że ludzie niewłaściwie używali testu chi-kwadrat z niewłaściwym stopniem swobody przez ponad dwadzieścia lat od jego wprowadzenia w 1900 r.)( R - 1 ) ∗ ( C- 1 )
Twój przypadek jest drugiego rodzaju (regresja), a nie pierwszego rodzaju (tabela awaryjna), chociaż oba są ze sobą powiązane, ponieważ są liniowymi ograniczeniami parametrów.
Ponieważ modelujesz wartości oczekiwane na podstawie zaobserwowanych wartości i robisz to za pomocą modelu, który ma dwa parametry, „zwykłe” zmniejszenie stopni swobody wynosi dwa plus jeden (dodatkowy, ponieważ O_i należy zsumować do suma, która jest kolejnym ograniczeniem liniowym, i skutecznie kończy się redukcją dwóch, zamiast trzech, z powodu „nieefektywności” modelowanych wartości oczekiwanych).
Test chi-kwadrat wykorzystuje jako miarę odległości, aby wyrazić, jak blisko wynik jest do oczekiwanych danych. W wielu wersjach testów chi-kwadrat rozkład tej „odległości” jest związany z sumą odchyleń w normalnych zmiennych rozproszonych (co jest prawdziwe tylko w limicie i jest przybliżeniem, jeśli mamy do czynienia z nietypowymi rozproszonymi danymi) .χ2)
Dla wielowymiarowego rozkładu normalnego funkcja gęstości jest powiązana z przezχ2)
fa( x1, . . . , xk) = e- 12)χ2)( 2 π)k| Σ |√
za pomocą wyznacznik macierzy kowariancjix| Σ |x
a to mahalanobi odległość, która zmniejsza się do odległości euklidesowej, jeśli .Σ = Iχ2)= ( x - μ )T.Σ- 1( x - μ )Σ = I
W swoim artykule z 1900 r. Pearson argumentował, że poziomy są sferoidami i że może przekształcić się we współrzędne sferyczne w celu zintegrowania wartości takiej jak . Który staje się pojedynczą całką. P ( χ 2 > a )χ2)P.( χ2)> a )
To właśnie reprezentacja geometryczna, jako odległość, a także termin w funkcji gęstości, może pomóc zrozumieć zmniejszenie stopni swobody, gdy występują ograniczenia liniowe.χ2)
Pierwszy przypadek tabeli awaryjnej 2x2 . Powinieneś zauważyć, że cztery wartości nie są czterema niezależnymi normalnymi zmiennymi rozproszonymi. Zamiast tego są ze sobą powiązane i sprowadzają się do jednej zmiennej.Oja- Ejamija
Pozwala użyć tabeli
OI j= o11o21o12o22
to jeśli oczekiwane wartości
miI j= e11mi21mi12mi22
gdzie ustalone wtedy byłby dystrybuowany jako rozkład chi-kwadrat o czterech stopniach swobody, ale często szacujemy na podstawie a odmiana nie przypomina czterech niezależnych zmiennych. Zamiast tego otrzymujemy, że wszystkie różnice między i są takie same eijoijoe∑ oI j- eI jmijajmiI joI jomi
--( o11- e11)(o22-e22)(o21-e21)(o12-e12)====o11- ( o11+ o12) ( o11+ o21)(o11+ o12+ o21+ o22)
i faktycznie są one pojedynczą zmienną, a nie czterema. Geometrycznie możesz to zobaczyć jako wartość nie zintegrowaną z czterowymiarową kulą, ale z pojedynczą linią.χ2)
Zauważ, że ten test tabeli awaryjnej nie ma zastosowania do tabeli awaryjnej w teście Hosmera-Lemeshowa (wykorzystuje inną hipotezę zerową!). Zobacz także sekcję 2.1 „Przypadek, w którym znane są i ” w artykule Hosmer i Lemshow. W ich przypadku otrzymujesz 2g-1 stopni swobody, a nie g-1 stopni swobody, jak w regule (R-1) (C-1). Ta reguła (R-1) (C-1) dotyczy w szczególności hipotezy zerowej, że zmienne wierszy i kolumn są niezależne (co stwarza ograniczenia R + C-1 dla wartości ). Test Hosmera-Lemeshowa dotyczy hipotezy, że komórki są wypełnione zgodnie z prawdopodobieństwami modelu regresji logistycznej opartej naβ _ o i - e i f o u p p + 1β0β--oja- ejafaO U rparametry w przypadku założenia dystrybucyjnego A i parametry w przypadku założenia dystrybucyjnego B.p + 1
Drugi przypadek regresji. Regresja robi coś podobnego do różnicy jak stół awaryjny i ogranicza wymiarowości zmienności. Jest na to ładna reprezentacja geometryczna, ponieważ wartość można przedstawić jako sumę wyrażenia modelowego i wyrażenia resztkowego (nie błędu) . Każdy z tych terminów modelowych i rezydualny reprezentuje przestrzeń wymiarową, która jest do siebie prostopadła. Oznacza to, że pozostałe warunki nie mogą przyjąć żadnej możliwej wartości! Mianowicie, są one zmniejszane przez część, która rzutuje na model, a dokładniej 1 wymiar dla każdego parametru w modelu.y i β x i ϵ i ϵ io - eyjaβxjaϵjaϵja
Może poniższe zdjęcia mogą trochę pomóc
Poniżej znajdują się 400 razy trzy (nieskorelowane) zmienne z rozkładów dwumianowych . Dotyczą one normalnych zmiennych rozproszonych . Na tym samym obrazie rysujemy powierzchnię izo dla . Całkując w tej przestrzeni za pomocą współrzędnych sferycznych, tak że potrzebujemy tylko pojedynczej integracji (ponieważ zmiana kąta nie zmienia gęstości), nad daje w którym ta część reprezentuje obszar kuli dwuwymiarowej. Gdybyśmy ograniczyli zmienneB ( n = 60 , p = 1 / 6 , 2 / 6 , 3 / 6 )N.( μ = n ∗ p , σ2)= n ∗ p ∗ ( 1 - p ) )χ2)= 1 , 2 , 6χ∫za0mi-12)χ2)χre- 1reχχre- 1χ w pewnym sensie integracja nie dotyczyłaby sfery d-wymiarowej, ale czegoś o niższym wymiarze.
Poniższy obraz można wykorzystać, aby uzyskać wyobrażenie o zmniejszeniu wymiarów w kategoriach resztkowych. Wyjaśnia metodę dopasowania najmniejszych kwadratów w ujęciu geometrycznym.
Na niebiesko masz pomiary. Na czerwono masz to, na co pozwala model. Pomiar często nie jest dokładnie równy modelowi i ma pewne odchylenia. Geometrycznie możesz to uznać za odległość od mierzonego punktu do czerwonej powierzchni.
Czerwone strzałki i mają wartości i i mogą być powiązane z jakimś modelem liniowym, ponieważ x = a + b * z + błąd lubm U1m U2)( 1 , 1 , 1 )( 0 , 1 , 2 )
⎡⎣⎢x1x2)x3)⎤⎦⎥= a ⎡⎣⎢111⎤⎦⎥+ b ⎡⎣⎢012)⎤⎦⎥+ ⎡⎣⎢ϵ1ϵ2)ϵ3)⎤⎦⎥
więc rozpiętość tych dwóch wektorów i (czerwona płaszczyzna) są wartościami możliwymi w modelu regresji, a jest wektorem, który jest różnicą między wartość obserwowana i wartość regresji / wartości modelowanej. W metodzie najmniejszych kwadratów ten wektor jest prostopadły (najmniejsza odległość to najmniejsza suma kwadratów) do czerwonej powierzchni (a modelowana wartość jest rzutem obserwowanej wartości na czerwoną powierzchnię).( 0 , 1 , 2 ) x ϵ( 1 , 1 , 1 )( 0 , 1 , 2 )xϵ
Tak więc ta różnica między obserwowaną a (modelowaną) oczekiwaną jest sumą wektorów, które są prostopadłe do wektora modelu (i ta przestrzeń ma wymiar całkowitej przestrzeni minus liczba wektorów modelu).
W naszym prostym przykładzie. Całkowity wymiar to 3. Model ma 2 wymiary. Błąd ma wymiar 1 (więc bez względu na to, który z tych niebieskich punktów bierzesz, zielone strzałki pokazują pojedynczy przykład, terminy błędów mają zawsze ten sam stosunek, podążaj za jednym wektorem).
Mam nadzieję, że to wyjaśnienie pomoże. Nie jest to w żaden sposób rygorystyczny dowód i istnieją pewne specjalne sztuczki algebraiczne, które należy rozwiązać w tych reprezentacjach geometrycznych. Ale tak czy inaczej lubię te dwie reprezentacje geometryczne. Jeden dla Pearsona polegający na zintegrowaniu za pomocą współrzędnych sferycznych, a drugi do oglądania metody sumy metodą najmniejszych kwadratów jako rzutu na płaszczyznę (lub większą rozpiętość).χ2)
Zawsze dziwi mnie to, jak skończymy na , to z mojego punktu widzenia nie jest trywialne, ponieważ normalne przybliżenie dwumianu nie jest odchyleniem przez ale przez i w w przypadku tabel awaryjnych można to łatwo opracować, ale w przypadku regresji lub innych ograniczeń liniowych nie działa to tak łatwo, podczas gdy literatura często bardzo łatwo dowodzi, że „działa to tak samo w przypadku innych ograniczeń liniowych” . (Ciekawy przykład problemu. Jeśli wykonasz następujący test wielokrotnie „rzuć 2 razy 10 razy monetę i zarejestruj tylko przypadki, w których suma wynosi 10”, nie uzyskasz typowego rozkładu chi-kwadrat dla tego ” proste „ograniczenie liniowe) enp(1-p)o - emimin p ( 1 - p )