Sekcja 3.5.2 w Elementy uczenia statystycznego jest przydatna, ponieważ umieszcza regresję PLS we właściwym kontekście (innych metod regularyzacji), ale w rzeczywistości jest bardzo krótka i pozostawia niektóre ważne stwierdzenia jako ćwiczenia. Ponadto uwzględnia jedynie przypadek zmiennej zależnej jednowymiarowej .y
Literatura na temat PLS jest obszerna, ale może być dość myląca, ponieważ istnieje wiele różnych „smaków” PLS: wersje jednoczynnikowe z pojedynczym DV (PLS1) i wersje wielowymiarowe z kilkoma DVs Y (PLS2), wersje symetryczne leczące X i Y równe i asymetryczne wersje („regresja PLS”) traktujące X jako zmienne niezależne, a Y jako zmienne zależne, wersje umożliwiające globalne rozwiązanie za pośrednictwem SVD oraz wersje wymagające iteracyjnej deflacji w celu wygenerowania każdej następnej pary kierunków PLS itp. itp.yYXYXY
Wszystko to zostało opracowane w dziedzinie chemometrii i pozostaje w pewnym stopniu odłączone od „głównego nurtu” literatury statystycznej lub uczenia maszynowego.
Artykuł przeglądowy, który uważam za najbardziej użyteczny (i który zawiera wiele innych odniesień) to:
W celu bardziej teoretycznej dyskusji mogę dodatkowo polecić:
Krótki starter na regresji PLS z jednoczynnikowym y (aka PLS1, aka SIMPLS)
Celem regresji jest oszacowanie w modelu liniowym y = X β + ϵ . Rozwiązanie OLS β = ( X ⊤ X ) - 1 X enjoy y ma wiele właściwości optymalnych, ale może cierpieć z powodu przeregulowania. Rzeczywiście, OLS szuka p że wydajność najwyższy możliwy korelacji X P z y . Jeśli istnieje wiele predyktorów, zawsze można znaleźć kombinację liniową, która okazuje się mieć wysoką korelację zy . To będzie fałszywa korelacja i tak dalejβy=Xβ+ϵβ=(X⊤X)−1X⊤yβXβyy zazwyczaj skierowany w kierunku wyjaśniając bardzo małą zmienność w X . Wskazówki wyjaśniające bardzo małą wariancję są często bardzo „hałaśliwymi” kierunkami. Jeśli tak, to nawet jeśli na danych szkoleniowych rozwiązanie OLS działa świetnie, na testowaniu danych będzie działać znacznie gorzej.βX
Aby zapobiec nadmiernemu dopasowaniu, stosuje się metody regularyzacji, które zasadniczo zmuszają do wskazywania kierunków wysokiej wariancji w X (jest to również nazywane „kurczeniem” β ; patrz Dlaczego działa skurcz? ). Jedną z takich metod jest regresja głównych składników (PCR), która po prostu odrzuca wszystkie kierunki niskiej wariancji. Kolejną (lepszą) metodą jest regresja kalenicowa, która płynnie karkuje kierunki o niskiej wariancji. Jeszcze inną metodą jest PLS1.βXβ
PLS1 zastępuje celu ole znalezienie , który maksymalizuje korelacji corr ( X, p , y ), z alternatywnym celu znalezienia p o długości ‖ β ‖ = 1 maksymalizacji kowariancji cov ( X β , y ) ~ Corr ( X β , y ) ⋅ √βcorr(Xβ,y)β∥β∥=1który ponownie skutecznie karze kierunki niskiej wariancji.
cov(Xβ,y)∼corr(Xβ,y)⋅var(Xβ)−−−−−−−√,
Znalezienie takiego (nazwijmy to β 1 ) daje pierwszy składnik PLS z 1 = X β 1 . Można ponadto wygląd na sekundę, a następnie (trzeciej itd PLS), składnika, który ma najwyższą kowariancji z y pod przymusem są nieskorelowane, przy wszystkich poprzednich elementów. Należy to rozwiązać iteracyjnie, ponieważ nie ma rozwiązania w formie zamkniętej dla wszystkich składników (kierunek pierwszego składnika β 1 jest po prostu podany przez X ⊤ yββ1z1=Xβ1yβ1X⊤yznormalizowana do długości jednostkowej). Po wyodrębnieniu pożądanej liczby składników regresja PLS odrzuca oryginalne predyktory i wykorzystuje komponenty PLS jako nowe predyktory; Daje to pewne liniowe ich kombinacji , które mogą być łączone ze wszystkimi β i do utworzenia ostatecznego p P L S .βzβiβPLS
Uwaga:
- Jeśli wszystkie komponenty PLS1 są używane, PLS będzie równoważne OLS. Zatem liczba składników służy jako parametr regularyzacji: im niższa liczba, tym silniejsza regularyzacja.
- Jeśli predyktory są nieskorelowane i wszystkie mają tę samą wariancję (tj. X został wybielony ), wówczas istnieje tylko jeden składnik PLS1 i jest on równoważny OLS.XX
- Wektory Masa i β j o ı ≠ j nie będą prostopadłe, ale wydajność nieskorelowane komponenty Z i = X β I i z j = X β j .βiβji≠jzi=Xβizj=Xβj
Biorąc to wszystko pod uwagę, nie jestem świadomy żadnych praktycznych zalet regresji PLS1 w porównaniu z regresją kalenicową (podczas gdy ta ostatnia ma wiele zalet: jest ciągła i nie dyskretna, ma rozwiązanie analityczne, jest znacznie bardziej standardowa, pozwala na rozszerzenia jądra i analityczne wzory na pomijalne błędy weryfikacji krzyżowej itp.).
Cytowanie od Franka i Friedmana:
RR, PCR i PLS przedstawiono w części 3, aby działać w podobny sposób. Ich głównym celem jest zmniejszenie wektora współczynnika rozwiązania od rozwiązania OLS w kierunku kierunków w przestrzeni zmiennej predyktorowej dla większego rozproszenia próbki. Widać, że PCR i PLS kurczą się mocniej od kierunków małego rozprzestrzeniania się niż RR, co zapewnia optymalny skurcz (wśród estymatorów liniowych) dla wcześniejszego kierunku w przeciwnych kierunkach. Zatem PCR i PLS przyjmują założenie, że prawda może mieć szczególne preferencyjne dopasowania z kierunkami dużego rozproszenia rozkładu zmiennej predyktorowej (próbki). Nieco zaskakującym wynikiem jest, PLS (dodatkowo) silniejszej masy prawdopodobieństwa na prawdziwej współczynnik wektora wyrównywania z p kierunku głównym składnikiem, gdzie KKK jest liczbą zastosowanych komponentów PLS, w rzeczywistości rozszerzając rozwiązanie OLS w tym kierunku.
Przeprowadzają również szeroko zakrojone badania symulacyjne i wnioskują (podkreślenie moje):
W sytuacjach objętych tym badaniem symulacyjnym można stwierdzić, że wszystkie tendencyjne metody (RR, PCR, PLS i VSS) zapewniają znaczną poprawę w stosunku do OLS. [...] We wszystkich sytuacjach RR dominował nad wszystkimi innymi badanymi metodami. PLS zwykle radził sobie prawie tak dobrze jak RR i zwykle przewyższał PCR, ale nie bardzo.
Aktualizacja: W komentarzach @cbeleites (który pracuje w chemometrii) sugeruje dwie możliwe zalety PLS nad RR:
λ
βRRβiyyβ1,β2,βPLS