W rzeczywistości nie ma gwarancji, że główne główne komponenty (PC) mają większą moc predykcyjną niż te o niskiej wariancji.
Rzeczywiste przykłady można znaleźć tam, gdzie tak nie jest, i łatwo jest skonstruować sztuczny przykład, w którym np. Tylko najmniejszy komputer w ogóle ma związek z .y
Temat ten był często omawiany na naszym forum, a przy (niefortunnym) braku jednego wyraźnie kanonicznego wątku mogę podać tylko kilka linków, które razem dają różne prawdziwe życie, a także sztuczne przykłady:
I ten sam temat, ale w kontekście klasyfikacji:
Jednak w praktyce, najlepsze komputery często nie mają często więcej mocy predykcyjnej niż te o niskiej wariancji, a ponadto przy użyciu tylko najwyższej komputery mogą przynieść lepsze moc prognostyczną niż przy użyciu wszystkich komputerach.
W sytuacjach, w których występuje wiele predyktorów i względnie mało punktów danych n (np. Gdy p ≈ n lub nawet p > n ), regresja zwykła się dopasuje i należy ją uregulować. Regresję głównych składników (PCR) można postrzegać jako jeden ze sposobów uregulowania regresji i zwykle daje ona lepsze wyniki. Ponadto jest ściśle związany z regresją kalenicy, która jest standardowym sposobem regularyzacji skurczu. Podczas gdy regresja kalenicy jest zwykle lepszym pomysłem, PCR często zachowuje się dość dobrze. Zobacz Dlaczego działa skurcz? za ogólną dyskusję na temat kompromisu wariancji odchylenia i tego, w jaki sposób skurcz może być korzystny.pnp≈np>n
W pewnym sensie można powiedzieć, że zarówno regresja grzbietu, jak i PCR zakładają, że większość informacji o jest zawarta w dużych komputerach X i takie założenie jest często uzasadnione.yX
Zobacz późniejszą odpowiedź @cbeleites (+1), aby uzyskać dyskusję na temat tego, dlaczego takie założenie jest często uzasadnione (a także ten nowszy wątek: Czy redukcja wymiarów jest prawie zawsze przydatna do klasyfikacji? W celu uzyskania dalszych komentarzy).
Hastie i in. w Elementach uczenia statystycznego (sekcja 3.4.1) komentuj to w kontekście regresji kalenicy:
[T] małe małe wartości [...] odpowiadają kierunkom w przestrzeni kolumny o małej wariancji, a regresja grzbietu najbardziej zmniejsza te kierunki. [...] Regresja kalenicy chroni przed potencjalnie wysoką zmiennością gradientów szacowanych w krótkich kierunkach. Domniemane założenie jest takie, że reakcja będzie się najbardziej różnić w kierunkach dużej zmienności danych wejściowych. Jest to często rozsądne założenie, ponieważ do badania często wybierane są predyktory, ponieważ różnią się one zależnie od zmiennej odpowiedzi, ale nie muszą się utrzymywać.X
Zobacz moje odpowiedzi w następujących wątkach, aby uzyskać szczegółowe informacje:
Dolna linia
W przypadku problemów wysokowymiarowych wstępne przetwarzanie za pomocą PCA (co oznacza zmniejszenie wymiarów i zachowanie tylko najlepszych komputerów PC) może być postrzegane jako jeden ze sposobów regularyzacji i często poprawi wyniki każdej późniejszej analizy, czy to regresji, czy metody klasyfikacji. Ale nie ma gwarancji, że to zadziała, i często istnieją lepsze metody regularyzacji.