Jeśli ma pełną pozycję, istnieje odwrotność i otrzymujemy oszacowanie najmniejszych kwadratów: i
Jak intuicyjnie wyjaśnić we wzorze wariancji? Technika wyprowadzania jest dla mnie jasna.
Jeśli ma pełną pozycję, istnieje odwrotność i otrzymujemy oszacowanie najmniejszych kwadratów: i
Jak intuicyjnie wyjaśnić we wzorze wariancji? Technika wyprowadzania jest dla mnie jasna.
Odpowiedzi:
Rozważ prostą regresję bez stałego terminu i gdzie pojedynczy regresor jest wyśrodkowany na średniej próbki. Zatem jest ( razy) jego wariancją próbki, a jest odwrotną. Zatem im wyższa wariancja = zmienność w regresorze, tym mniejsza wariancja estymatora współczynnika: im większa zmienność mamy w zmiennej objaśniającej, tym dokładniej możemy oszacować nieznany współczynnik.
Dlaczego? Ponieważ im bardziej regresor jest zróżnicowany, tym więcej informacji zawiera. Gdy regresorów jest wiele, to uogólnia się na odwrotność ich macierzy wariancji-kowariancji, która bierze również pod uwagę współzmienność regresorów. W skrajnym przypadku, gdy jest przekątna, precyzja dla każdego oszacowanego współczynnika zależy tylko od wariancji / zmienności powiązanego regresora (biorąc pod uwagę wariancję składnika błędu).
Prostym sposobem oglądania jest analog macierzowy (wielowymiarowy) analog σ 2 , co stanowi wariancję współczynnika nachylenia w prostej regresji OLS. Można nawet dostaćσ2 dla tej wariancji przez pominięcie przecięcia w modelu, tj. Przez wykonanie regresji przez początek.
Z jednej z tych formuł można zauważyć, że większa zmienność zmiennej predykcyjnej na ogół doprowadzi do dokładniejszego oszacowania jej współczynnika. Jest to pomysł często wykorzystywany w projektowaniu eksperymentów, w którym wybierając wartości predyktorów (nieprzypadkowych), próbuje się uczynić wyznacznik tak dużym, jak to możliwe, przy czym wyznacznik jest miarą zmienności.
Czy transformacja liniowa losowej zmiennej Gaussa pomaga? Stosując zasadę, że jeśli , to A x + b ∼ N ( A μ + b , A T Σ A ) .
Zakładając, że jest modelem bazowym i ϵ ∼ N ( 0 , σ 2 ) .
Tak jest po prostu skomplikowane macierz skalowania, który przemienia dystrybucja Y .
Mam nadzieję, że było to pomocne.
Przyjmę inne podejście do rozwijania intuicji, która leży u podstaw formuły . Opracowując intuicję dla modelu regresji wielokrotnej, warto wziąć pod uwagę dwuwymiarowy model regresji liniowej,mianowicie. ,yi=α+βxi+εi,α + β x i jest często nazywany deterministyczną wkład y I i ε i nazywa się post stochastycznych. Wyrażony w kategoriach odchyleń od średnich próbek ( ˉ x , ˉ y ) , model ten można również zapisać jako ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε
Aby pomóc w rozwijaniu intuicji, założymy, że spełnione są najprostsze założenia Gaussa-Markowa: niestochastyczne, ∑ n i = 1 ( x i - ˉ x ) 2 > 0 dla wszystkich n oraz ε i ∼ iid ( 0 , σ 2 ) dla wszystkich i = 1 , … , n . Jak już dobrze wiesz, warunki te gwarantują, że Var gdzie Var
Dlaczego warto podwojenie wielkość próby, ceteris paribus , bo wariancja beta być cięte w połowie? Wynik ten jest ściśle związany z założeniem iid zastosowanym do ε : Ponieważ zakłada się, że poszczególne błędy są iid, każda obserwacja powinna być traktowana ex ante jako równie pouczająca. I podwojenie liczby obserwacji podwaja ilość informacji na temat parametrów opisujących (zakłada liniowy) związek między x i y . Posiadanie dwukrotnie większej ilości informacji zmniejsza o połowę niepewność parametrów. Podobnie powinno być łatwo rozwinąć intuicję, dlaczego podwajać podwaja również wariancji beta .
Kolej Chodźmy więc do głównego pytania, co jest o rozwijanie intuicji do twierdzenia, że wariancja beta jest odwrotnie proporcjonalna do wariancji x . Aby sformalizować pojęcia, rozważmy teraz dwa osobne dwuwymiarowe modele regresji liniowej, zwane Model ( 1 ) i Model ( 2 ) . Zakładamy, że oba modele spełniają założenia najprostszej postaci twierdzenia Gaussa-Markowa i że modele dzielą dokładnie takie same wartości α , β , n i σ 2 . Przy tych założeniach łatwo jest wykazać, że E; słowami, oba estymatory są obiektywne. Co najważniejsze, założymy również, że podczas gdy ˉ x ( 1 ) = ˉ x ( 2 ) = ˉ x ,Var . Bez utraty ogólności załóżmy, że Var . Który estymatorem beta będzie miał mniejszą wariancję? Innymi słowy, będzie p lub β być bliżej,średnio, doβ? Z wcześniejszej dyskusji mamyVardlak=1,2. PonieważVar z założenia wynika, że Var . Jaka jest zatem intuicja tego wyniku?
Ponieważ z założenia implies that . The bivariate linear regression model, expressed in deviations from means, states that for Model and for Model . If , this means that the deterministic component of Model , , has a greater influence on than does the deterministic component of Model , . Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that . Since Model imparts more information about the contribution of the deterministic component of than does Model , it follows that the precision with which the deterministic contribution can be estimated is greater for Model than is the case for Model . The converse of greater precision is a lower variance of the point estimate of .
Uogólnienie intuicji uzyskanej dzięki badaniu prostego modelu regresji na ogólny model regresji wielokrotnej liniowej jest dość proste. Główną komplikacją jest to, że zamiast porównywać wariancje skalarne, konieczne jest porównanie „rozmiaru” macierzy wariancji-kowariancji. Dobra znajomość wyznaczników, śladów i wartości własnych rzeczywistych macierzy symetrycznych jest w tym momencie bardzo przydatna :-)
Say we have observations (or sample size) and parameters.
The covariance matrix of the estimated parameters etc. is a representation of the accuracy of the estimated parameters.
If in an ideal world the data could be perfectly described by the model, then the noise will be . Now, the diagonal entries of correspond to etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.
In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of will be higher, as the number of columns of is and the number of rows of is , and each entry of is a sum of product pairs. The absolute value of the entries of the inverse will be lower.
Hence, even if there is a lot of noise, we can still reach good estimates of the parameters if we increase the sample size .
I hope this helps.
Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.
Opiera się to na odpowiedzi @Alecos Papadopuolos.
Przypomnij sobie, że wynik regresji metodą najmniejszych kwadratów nie zależy od jednostek miary twoich zmiennych. Załóżmy, że twoja zmienna X jest miarą długości podaną w calach. Następnie przeskalowanie X, powiedzmy przez pomnożenie przez 2,54, aby zmienić jednostkę na centymetry, nie ma istotnego wpływu na rzeczy. Po ponownym zamontowaniu modelu nowa ocena regresji będzie starą oceną podzieloną przez 2,54.
The macierz jest wariancją X, a zatem odzwierciedla skalę pomiaru X. Jeśli zmienisz skalę, musisz to odzwierciedlić w swojej ocenie I odbywa się to poprzez pomnożenie przez odwrotność z.