Co to jest „częściowe” w metodach częściowego najmniejszego kwadratu?

W częściowej regresji najmniejszych kwadratów (PLSR) lub częściowym modelowaniu równań strukturalnych najmniejszych kwadratów (PLS-SEM), do czego odnosi się termin „częściowy”?

— Alph
źródło

Zauważ, że Wold Jr. uważa, że nazwa „częściowa najmniejsza kwadratowa” jest myląca i powinna być nazwana „rzutowaniem na ukryte przestrzenie”.

— Momo

@Momo: Tak, przeczytałem o tym. Jednak nawet jeśli PLS w pewnym stopniu wprowadza w błąd, „rzut na ukryte przestrzenie” jest jeszcze mniej wyraźny, nie wspominając o braku wygody w używaniu tego terminu w formie pisemnej.

— Aleksandr Blekh

Odpowiedzi:

Chciałbym odpowiedzieć na to pytanie, oparte w dużej mierze na perspektywie historycznej , co jest dość interesujące. Herman Wold, który wynalazł podejście częściowe najmniejszych kwadratów (PLS) , nie zaczął od razu używać terminu PLS (ani nawet wspominając terminu częściowy ). W początkowym okresie (1966–1969) nazywał to podejście NILES - skrótem terminu i tytułu swojej pierwszej pracy na ten temat Nieliniowe oszacowanie według procedur iteracyjnych metodą najmniejszych kwadratów , opublikowanej w 1966 r.

Jak widać, procedury, które później zostaną nazwane częściowymi, zostały nazwane iteracyjnymi , koncentrując się na iteracyjnym charakterze procedury szacowania wag i zmiennych utajonych (LV). Termin „najmniejszych kwadratów” pochodzi od użycia zwykłej regresji metodą najmniejszych kwadratów (OLS) do oszacowania innych nieznanych parametrów modelu (Wold, 1980). Wydaje się, że termin „częściowy” ma swoje korzenie w wdrożonych procedurach NILES „ideę podziału parametrów modelu na podzbiory, aby można je było oszacować w częściach” (Sanchez, 2013, s. 216; moje podkreślenie) .

Pierwsze użycie terminu PLS pojawiło się w artykule Procedury estymacji nieliniowych iteracyjnych cząstkowych najmniejszych kwadratów (NIPALS) , które to publikacja oznacza kolejny okres historii PLS - okres modelowania NIPALS . Lata 70. i 80. XX wieku okresem miękkiego modelowania , kiedy pod wpływem podejścia LISREL Karla Joreskoga do SEM Wold przekształca podejście NIPALS w modelowanie miękkie, które zasadniczo stanowiło rdzeń nowoczesnego podejścia PLS (termin PLS staje się głównym nurtem pod koniec lat siedemdziesiątych ). Lata 90. XX wieku, kolejny okres w historii PLS, który Sanchez (2013) nazywa okresem „luki”, charakteryzuje się głównie zmniejszeniem jego wykorzystania. Na szczęście, począwszy od 2000 roku ( okres konsolidacji), PLS cieszył się z powrotu jako bardzo popularne podejście do analizy SEM, szczególnie w naukach społecznych.

AKTUALIZACJA (w odpowiedzi na komentarz Amoeby):

Być może sformułowanie Sancheza nie jest idealne w cytowanym przeze mnie zdaniu. Myślę, że „szacowany w częściach” dotyczy ukrytych bloków zmiennych. Wold (1980) szczegółowo opisuje tę koncepcję.
Masz rację, że NIPALS został pierwotnie opracowany dla PCA. Zamieszanie wynika z faktu, że istnieją zarówno liniowe PLS, jak i nieliniowe podejścia PLS. Myślę, że Rosipal (2011) bardzo dobrze wyjaśnia różnice (przynajmniej jest to najlepsze wytłumaczenie, jakie do tej pory widziałem).

AKTUALIZACJA 2 (dalsze wyjaśnienia):

W odpowiedzi na obawy wyrażone w odpowiedzi na amebę chciałbym wyjaśnić kilka rzeczy. Wydaje mi się, że musimy rozróżnić użycie słowa „częściowy” między NIPALS a PLS. Stwarza to dwa osobne pytania dotyczące 1) znaczenia „częściowego” w NIPALS i 2) znaczenia „częściowego” w PLS (takie jest pierwotne pytanie Phila 2014). Chociaż nie jestem pewien co do tego pierwszego, mogę udzielić dalszych wyjaśnień na temat tego drugiego.

Według Wolda, Sjöströma i Erikssona (2001),

„Częściowe” w PLS wskazuje, że jest to regresja częściowa, ponieważ ...

Innymi słowy, „częściowy” wynika z faktu, że dekompozycja danych za pomocą algorytmu NIPALS dla PLS może nie obejmować wszystkich składników , a zatem „częściowa”. Podejrzewam, że ten sam powód dotyczy ogólnie NIPALS, jeśli możliwe jest użycie algorytmu na „częściowych” danych. To by tłumaczyło „P” w NIPALS.

Jeśli chodzi o użycie słowa „nieliniowe” w definicji NIPALS (nie mylić z nieliniowym PLS , który reprezentuje nieliniowy wariant podejścia PLS!), Myślę, że odnosi się to nie do samego algorytmu , ale do modeli nieliniowych , które mogą być analizowane przy użyciu NIPALS opartych na regresji liniowej.

AKTUALIZACJA 3 (wyjaśnienie Hermana Wolda):

Podczas gdy artykuł Hermana Wolda z 1969 roku wydaje się być najwcześniejszym tekstem na temat NIPALS, udało mi się znaleźć kolejny z najwcześniejszych artykułów na ten temat. Jest to praca Wolda (1974), w której „ojciec” PLS przedstawia swoje uzasadnienie użycia słowa „częściowy” w definicji NIPALS (s. 71):

3.1.4 Oszacowanie NIPALS: iteracyjny OLS. Jeśli jedna lub więcej zmiennych modelu jest ukrytych, relacje predyktorów obejmują nie tylko nieznane parametry, ale także nieznane zmienne, w wyniku czego problem estymacji staje się nieliniowy. Jak wskazano w 3.1 (iii), NIPALS rozwiązuje ten problem za pomocą procedury iteracyjnej, powiedzmy z krokami s = 1, 2, ... Każdy krok s obejmuje skończoną liczbę regresji OLS, po jednej dla każdej relacji predykcyjnej modelu. Każda taka regresja daje oszacowania proxy dla podzbioru nieznanych parametrów i ukrytych zmiennych (stąd nazwa częściowa najmniejszych kwadratów), a te oszacowania proxy są wykorzystywane w następnym etapie procedury do obliczania nowych oszacowań proxy.

Bibliografia

Rosipal, R. (2011). Nieliniowe częściowe najmniejsze kwadraty: przegląd. W Lodhi H. i Yamanishi Y. (red.), Chemoinformatics and Advanced Machine Learning Perspectives: Complex Methods Computational and Collaborative Techniques , s. 169–189. ACCM, IGI Global. Źródło: http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf

Sanchez, G. (2013). Modelowanie ścieżek PLS w R. Berkeley, Kalifornia: Trowchez Editions. Źródło: http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf

Wold, H. (1974). Przepływy przyczynowe z ukrytymi zmiennymi: Podziały dróg w świetle modelowania NIPALS. Europejski Przegląd Gospodarczy, 5 , 67–86. Wydawnictwo North Holland.

Wold, H. (1980). Konstrukcja i ocena modelu, gdy brakuje wiedzy teoretycznej: Teoria i zastosowania częściowych najmniejszych kwadratów. W J. Kmenta i JB Ramsey (red.), Ocena modeli ekonometrycznych , s. 47–74. New York: Academic Press. Źródło: http://www.nber.org/chapters/c11693

Wold, S., Sjöström, M., i Eriksson, L. (2001). Regresja PLS: podstawowe narzędzie chemometrii. Chemometrics and Intelligent Laboratory Systems, 58 , 109-130. doi: 10.1016 / S0169-7439 (01) 00155-1 Źródło: http://www.libpls.net/publication/PLS_basic_2001.pdf

— Aleksandr Blekh
źródło

@amoeba: Uważam, że ten artykuł wyjaśnia PLS w przeciwieństwie do innych podejść w bardziej techniczny sposób, o którym ostatnio dyskutowałeś. Należy jednak zauważyć, że powyższe wyjaśnienie koncentruje się na regresji PLS, podczas gdy PLS obejmuje wiele klas analizy systemu (patrz slajd 10 w poniższej prezentacji). Pomocne są również uwagi techniczne na slajdach 25-29. Prezentacja: plsmodeling.com/pls/pls-introduction .

— Aleksandr Blekh

@ Aleksandr Blekh: To bardzo miłe referencje.

— Alf.

Wow, ludzie nadają nazwy okresom historii PLS! Imponujący.

— ameba mówi Przywróć Monikę

Poważnie jednak zajrzałem do książki Sancheza, ale nadal nie rozumiem, co NIPALS ma wspólnego z „ideą podziału parametrów modelu na podzbiory, aby można je było oszacować w częściach” . NIPALS był początkowo sugerowany jako metoda obliczania głównych składników, prawda? To całkiem proste. Nie widzę tam żadnych „podziałów” parametrów na „podzbiory”, więc nie mam pojęcia, o czym tutaj mówi Sanchez. Nawiasem mówiąc, nie rozumiem też „nieliniowego” w NIPALS. Z pewnością PCA jest techniką liniową!

— ameba mówi Przywróć Monikę

@amoeba: Proszę zobaczyć moją aktualizację w odpowiedzi na twój komentarz. Mam nadzieję, że to pomoże.

— Aleksandr Blekh

$X$ $Y$

Jednak historycznie, jak ładnie wyjaśnia @Aleksandr (+1), PLS został wprowadzony przez Wolda, który wykorzystał swój algorytm NIPALS do jego wdrożenia; NIPALS oznacza „nieliniowe iterowane częściowe najmniejsze kwadraty”, więc oczywiście P w PLS właśnie tam dotarło z NIPALS.

$\newcommand{\X}{\mathbf X}\X$ $\newcommand{\v}{\mathbf v}\v$ $\newcommand{\p}{\mathbf p}\p$ $\v$ $\p$

$\v = \X^\top \p (\p^\top \p)^{-1}$
$\|\v\|$ $1$
$\p = \X \v (\v^\top \v)^{-1}$

$\v$ $\p$ $\X$

(Dlaczego nazwał to „nieliniowym”, ale nadal nie rozumiem.)

Termin ten jest wyjątkowo mylący, ponieważ jeśli jest „częściowy”, to każdy algorytm maksymalizacji oczekiwań jest również „częściowy” (w rzeczywistości NIPALS można postrzegać jako prymitywną formę EM, patrz Roweis 1998 ). Myślę, że PLS jest dobrym kandydatem do konkursu „Najbardziej wprowadzający w błąd termin w uczeniu maszynowym”. Niestety, raczej nie zmieni się to pomimo wysiłków Wolda Jr. (patrz komentarz @ Momo powyżej).

— ameba mówi Przywróć Monikę
źródło

Możesz być zainteresowany aktualizacją mojej odpowiedzi 2 z dalszymi wyjaśnieniami.

— Aleksandr Blekh

Dzięki za kontynuowanie tej dyskusji (aby uniknąć nieporozumień, powinienem powiedzieć, że nie próbowałem w żaden sposób cię krytykować!). Teraz do twojej aktualizacji2. Jak myślisz, dlaczego powinniśmy rozróżniać znaczenie „częściowy” w PLS i NIPALS? To brzmi dziwnie; PLS wyrósł z pracy nad NIPALS, co sugeruje, że jego nazwa to po prostu skrócony „niPaLS”. Wydaje się to potwierdzone przez Wolda i in. Artykuł z 2001 r., Który znalazłeś: „Zawierał prosty, ale skuteczny sposób oszacowania parametrów w tych modelach, zwany NIPALS [...]. To z kolei doprowadziło do akronimu PLS dla tych modeli” .

— ameba mówi Przywróć Monikę

v

$\mathbf v$

p

$\mathbf p$

X

$\mathbf X$

— ameba mówi Przywróć Monikę

Świetny! Myślę, że odpowiedź na pytanie jest w końcu satysfakcjonująca. I w końcu przegłosowałem twoją odpowiedź, +1 :-) Zredagowałem moją odpowiedź, aby uwzględnić to nowe rozumienie. Jeśli chodzi o twoją odpowiedź: kiedy wyjaśniłeś słowo „częściowy” w aktualizacji 1 i 2, czy naprawdę miałeś na myśli to samo, co teraz uzgodniliśmy? Dla mnie wygląda na to, że twoja odpowiedź zawiera obecnie kilka różnych interpretacji ...

— Amoeba mówi Przywróć Monikę

Nie wiem! Być może jest to poprawne. Czy potrafisz opracować, jakie „modele nieliniowe” można analizować za pomocą NIPALS i jak? Z drugiej strony jest to prawdopodobnie zupełnie inny temat. Wydaje mi się, że chodzi o to, że Wold opracował NIPALS, aby nie obliczać PCA dla samego siebie, ale miał na myśli pewne szczególne zastosowania, w których musiał radzić sobie z problemami nieliniowymi i jakoś je zlinearyzować, redukując się do PCA? W dzisiejszych czasach ludzie przedstawiają NIPALS jako prosty algorytm do obliczania wiodących pojedynczych wektorów, ale być może Wold z 1969 roku w ogóle nie zgodziłby się z tym poglądem!

— ameba mówi Przywróć Monikę