Dlaczego Daniel Wilks (2011) twierdzi, że regresja głównego składnika „będzie tendencyjna”?

W Metodach statystycznych w naukach atmosferycznych Daniel Wilks zauważa, że wielokrotna regresja liniowa może prowadzić do problemów, jeśli między predyktorami występują bardzo silne wzajemne korelacje (wydanie trzecie, strona 559-560):

Patologia, która może wystąpić w wielokrotnej regresji liniowej, polega na tym, że zestaw zmiennych predykcyjnych o silnych wzajemnych korelacjach może skutkować obliczeniem niestabilnej zależności regresji.

(...)

Następnie wprowadza regresję głównego składnika:

Podejściem do rozwiązania tego problemu jest najpierw przekształcenie predyktorów w ich główne składniki, których korelacje są zerowe.

Jak na razie dobrze. Ale następnie podaje kilka stwierdzeń, których nie wyjaśnia (a przynajmniej nie jest wystarczająco szczegółowy, aby zrozumieć):

Jeśli wszystkie główne składowe zostaną zachowane w regresji składowej głównej, wówczas nic nie zostanie uzyskane w porównaniu do konwencjonalnego dopasowania najmniejszych kwadratów do pełnego zestawu predyktorów.

(..) i:

Możliwe jest ponowne wyrażenie regresji składowej głównej w odniesieniu do pierwotnych predyktorów, ale wynik ogólnie będzie obejmować wszystkie oryginalne zmienne predykcyjne, nawet jeśli zastosowano tylko jeden lub kilka predyktorów składowych głównych. Ta odtworzona regresja będzie tendencyjna, chociaż często wariancja jest znacznie mniejsza, co powoduje ogólnie mniejsze MSE.

Nie rozumiem tych dwóch punktów.

Oczywiście, jeśli wszystkie główne składniki zostaną zachowane, wykorzystamy te same informacje, co wtedy, gdy używaliśmy predyktorów w ich oryginalnej przestrzeni. Jednak problem wzajemnych korelacji usuwa się, pracując w głównej przestrzeni komponentów. Nadal możemy mieć przeregulowanie, ale czy to jedyny problem? Dlaczego nic nie zyskuje?

Po drugie, nawet jeśli skracamy główne elementy (być może w celu zmniejszenia hałasu i / lub zapobiegania przeuczeniu), dlaczego i jak prowadzi to do tendencyjnego odtworzenia regresji? W jakim stopniu?

Źródło książki: Daniel S. Wilks, Metody statystyczne w naukach atmosferycznych, trzecie wydanie, 2011. International Geophysics Series Volume 100, Academic Press.

regression pca bias

— gerrit
źródło

(+1) W drugim cytacie słowo „będzie stronniczy” nie jest logiczne: lepiej byłoby łagodniejsze stwierdzenie, takie jak „prawdopodobnie stronniczy”. Podejrzewam, że leżące u podstaw tego rozumowania może być coś w rodzaju „ponieważ PCR narzuca liniowe relacje między oszacowaniami parametrów, oszacowania te będą się różnić od oszacowań OLS; a ponieważ oszacowania OLS są obiektywne, oznacza to, że oszacowania PCR będą tendencyjne”. Intuicyjnie jest to dobra heurystyka, ale nie do końca poprawna.

— whuber

czy można powiedzieć, że „PCR będzie tendencyjny”, jeżeli (a) punkty danych nie zajmą liniowego, mniejszego lub równego kolektora wymiaru niż wybrana liczba PC i (b) punkty danych nie będą idealnie nieskorelowane? albo jak?

— Soren Havelund Welling,

Co dzieje się, gdy używane są wszystkie komputery?

Jeśli używane są wszystkie komputery PC, uzyskane współczynniki regresji będą identyczne ze współczynnikami uzyskanymi w przypadku regresji OLS, a zatem procedura ta nie powinna być nazywana „regresją głównego elementu”. Jest to standardowa regresja, wykonywana tylko w sposób okrężny.

Pytasz, jak to możliwe, że nic się nie zyskuje, biorąc pod uwagę, że po PCA predyktory stają się ortogonalne. Diabeł ukrywa się w wstecznej transformacji współczynników regresji z przestrzeni PCA do przestrzeni pierwotnej. Musisz wiedzieć, że wariancja szacowanych współczynników regresji odwrotnie zależy od macierzy kowariancji predyktorów. Predyktory transformowane PCA, nazwijmy je , mają diagonalną macierz kowariancji (ponieważ są nieskorelowane). Więc wszystkie współczynniki regresji dla $Z$ $Z$ $X$ $X_i$

Więc nic nie zyskuje.

Co się stanie, gdy używanych będzie tylko kilka komputerów?

$\hat \beta_\mathrm{PCR}$ $\hat \beta_\mathrm{OLS}$ $\hat \beta$

Jest to przykład kompromisu wariancji odchylenia . Zobacz Dlaczego działa skurcz? na dalszą ogólną dyskusję.

$y$ $y$ $y$

Dlaczego korzystanie z komputerów o dużej zmienności jest w ogóle dobrym pomysłem?

Nie było to częścią pytania, ale możesz przeczytać następujący wątek do dalszego czytania: W jaki sposób najważniejsze główne komponenty mogą zachować moc predykcyjną zmiennej zależnej (lub nawet prowadzić do lepszych prognoz)?

— ameba mówi Przywróć Monikę
źródło

Y

$Y$

Y

$Y$

@ whuber, rzeczywiście. Przepisałem ten akapit, mam nadzieję, że teraz ma to większy sens. Dzięki.

— ameba mówi Przywróć Monikę

Hmm, racja. Zasadniczo oznacza to, że niektóre punkty są bardziej równe niż inne, co jest dokładnie tym, czego chcemy, jeśli chcemy zmniejszyć wpływ hałasu i wartości odstających (do czego nie jestem jeszcze pewien, czy PCA jest najlepszym narzędziem).

— gerrit

@gerrit Piszecie tak, jakby stronniczość była równoznaczna z ważeniem, ale są to osobne rzeczy. Odchylenie w tym kontekście odnosi się do dowolnej różnicy między oczekiwanymi wartościami oszacowań współczynników a ich prawdziwymi wartościami.

— whuber

Model zakłada, że odpowiedzi są zmiennymi losowymi. To sprawia, że oszacowane współczynniki - przy użyciu dowolnej procedury - również zmienne losowe. Ich oczekiwane wartości są zdefiniowane jak dla każdej zmiennej losowej. Z definicji odchylenie jest różnicą między wartością oczekiwaną a wartością rzeczywistą. Oszacowania współczynnika OLS mają odchylenia zerowe. Błąd niektórych innych procedur wciąż może wynosić zero. Logika cytatu polega na tym, że procedura, która jest liniowa, podobnie jak OLS, ale narzuca relacje między współczynnikami, z konieczności będzie tendencyjna. Wniosek ten jest prawdziwy w wielu przypadkach, ale nie we wszystkich.

— whuber