W Metodach statystycznych w naukach atmosferycznych Daniel Wilks zauważa, że wielokrotna regresja liniowa może prowadzić do problemów, jeśli między predyktorami występują bardzo silne wzajemne korelacje (wydanie trzecie, strona 559-560):
Patologia, która może wystąpić w wielokrotnej regresji liniowej, polega na tym, że zestaw zmiennych predykcyjnych o silnych wzajemnych korelacjach może skutkować obliczeniem niestabilnej zależności regresji.
(...)
Następnie wprowadza regresję głównego składnika:
Podejściem do rozwiązania tego problemu jest najpierw przekształcenie predyktorów w ich główne składniki, których korelacje są zerowe.
Jak na razie dobrze. Ale następnie podaje kilka stwierdzeń, których nie wyjaśnia (a przynajmniej nie jest wystarczająco szczegółowy, aby zrozumieć):
Jeśli wszystkie główne składowe zostaną zachowane w regresji składowej głównej, wówczas nic nie zostanie uzyskane w porównaniu do konwencjonalnego dopasowania najmniejszych kwadratów do pełnego zestawu predyktorów.
(..) i:
Możliwe jest ponowne wyrażenie regresji składowej głównej w odniesieniu do pierwotnych predyktorów, ale wynik ogólnie będzie obejmować wszystkie oryginalne zmienne predykcyjne, nawet jeśli zastosowano tylko jeden lub kilka predyktorów składowych głównych. Ta odtworzona regresja będzie tendencyjna, chociaż często wariancja jest znacznie mniejsza, co powoduje ogólnie mniejsze MSE.
Nie rozumiem tych dwóch punktów.
Oczywiście, jeśli wszystkie główne składniki zostaną zachowane, wykorzystamy te same informacje, co wtedy, gdy używaliśmy predyktorów w ich oryginalnej przestrzeni. Jednak problem wzajemnych korelacji usuwa się, pracując w głównej przestrzeni komponentów. Nadal możemy mieć przeregulowanie, ale czy to jedyny problem? Dlaczego nic nie zyskuje?
Po drugie, nawet jeśli skracamy główne elementy (być może w celu zmniejszenia hałasu i / lub zapobiegania przeuczeniu), dlaczego i jak prowadzi to do tendencyjnego odtworzenia regresji? W jakim stopniu?
Źródło książki: Daniel S. Wilks, Metody statystyczne w naukach atmosferycznych, trzecie wydanie, 2011. International Geophysics Series Volume 100, Academic Press.