Jakie znaczenie ma macierz kapelusza, , w regresji liniowej?

10

Jakie znaczenie ma macierz kapelusza, w analizie regresji? $H=X(X^{\prime}X )^{-1}X^{\prime}$

Czy to tylko dla łatwiejszych obliczeń?

regression multiple-regression least-squares

— użytkownik 31466
źródło

Czy mógłbyś być bardziej szczegółowy?

— Steve S,

@ SteveS Właściwie chcę wiedzieć, dlaczego potrzebujemy matrycy Hat?

— użytkownik 31466,

Czy pytasz, dlaczego potrzebujemy specjalnej nazwy / symbolu (tj. „Matryca kapelusza”, „ H ”) dla matrycy, czy pytasz więcej o znaczeniu produktu matrycowego po prawej stronie?

— Steve S,

14

W badaniu regresji liniowej podstawowym punktem wyjścia jest proces generowania danych gdzie i deterministyczny. Po zminimalizowaniu kryterium najmniejszych kwadratów można znaleźć estymator dla , tj. . Po podłączeniu estymatora do początkowej formuły otrzymuje się jako liniowy model procesu generowania danych. Teraz można podstawić estymator na $\textbf{y= XB + u} \quad$ $\textbf{u} \sim N(0,\sigma^2 \boldsymbol I)$ $\textbf{X}$ $\widehat {\textbf{B} }$ $\textbf{B}$ $\widehat {\textbf{B}}= ( \textbf{X} ' \textbf{X})^{-1}\textbf{X} '\textbf{y}$ $\widehat {\textbf{y}}=\textbf{X}\widehat {\textbf{B}}$ $\widehat {\textbf{B}}$ i dostaje $\widehat {\textbf{y}}=\textbf{X}( \textbf{X} ' \textbf{X})^{-1}\textbf{X} '\textbf{y}.$

Tak więc jest w rzeczywistości macierzą projekcji. Wyobraź sobie, że bierzesz wszystkie zmienne w . Zmienne są wektorami i obejmują spację. Dlatego mnożąc przez , zaobserwowane wartości w na przestrzeń, która jest rozpięta przez zmienne w . Daje to szacunki dla i to jest powód, dla którego nazywa się to macierzą kapelusza i dlatego ma tak duże znaczenie. W końcu regresja liniowa jest niczym więcej niż projekcją, a dzięki macierzy projekcji nie możemy tylko obliczyć szacunków dla $\textbf{H} = \textbf{X}( \textbf{X} ' \textbf{X})^{-1}\textbf{X} '$ $\textbf{X}$ $\textbf{H}$ $\textbf{y}$ $\textbf{y}$ $\textbf{X}$ $\textbf{y}$ $\textbf{y}$ ale także dla i może na przykład sprawdzić, czy naprawdę jest normalnie rozpowszechniany. $\textbf{u}$

Znalazłem to ładne zdjęcie w Internecie i wizualizuje tę projekcję. Pamiętaj, że jest używane zamiast . Ponadto obraz podkreśla, że wektor terminów błędów jest ortogonalny do projekcji, a zatem nie jest skorelowany z szacunkami dla $\beta$ $\textbf{B}$ $\textbf{y}$

wprowadź opis zdjęcia tutaj

— losowa osoba
źródło

5

Matryca kapeluszowa jest bardzo przydatna z kilku powodów:

Zamiast mieć , otrzymujemy gdzie jest macierzą kapelusza. To daje nam, że jest liniowym odwzorowaniem obserwowanych wartości. $\widehat{y}=Z\widehat{\beta}$ $\widehat{y}=Py$ $P$ $\widehat{y}$
Z macierzy kapelusza łatwo jest obliczyć resztki . Widzimy, że . $P$ $\widehat{\epsilon}$ $\widehat{\epsilon}=y-\widehat{y}=y-Py=\left(I_n-P\right)y$

— wilsnunn
źródło

0

To nic innego jak znalezienie „najbliższego” rozwiązania dla Ax = b, gdzie b nie znajduje się w przestrzeni kolumny A. Projektujemy b na przestrzeń kolumny i rozwiązujemy dla Ax (hat) = p, gdzie p jest rzutem b na przestrzeń kolumny.

— Andrew W.
źródło

1

Wszystko to można zrobić bez kiedykolwiek obliczeniowej .

H

$H$

— whuber