Jaki jest związek między regresją a liniową analizą dyskryminacyjną (LDA)?

24

Czy istnieje związek między regresją a liniową analizą dyskryminacyjną (LDA)? Jakie są ich podobieństwa i różnice? Czy robi to jakąkolwiek różnicę, jeśli istnieją dwie klasy lub więcej niż dwie klasy?

— zca0
źródło

3

Uwaga dla czytelnika: pytanie jest dwuznaczne, można je rozumieć jako pytanie o regresję logistyczną lub regresję liniową . Wydaje się, że PO był zainteresowany obydwoma aspektami (patrz uwagi). Przyjęta odpowiedź dotyczy regresji liniowej, ale niektóre inne odpowiedzi koncentrują się na regresji logistycznej.

— ameba mówi Przywróć Monikę

20

Rozumiem, że pytanie dotyczy LDA i regresji liniowej (nie logistycznej).

Istnieje znaczna i znacząca zależność między regresją liniową a liniową analizą dyskryminacyjną . W przypadku, gdy zmienna zależna (DV) składa się tylko z 2 grup, dwie analizy są w rzeczywistości identyczne. Pomimo tego, że obliczenia są różne, a wyniki - współczynniki regresji i dyskryminacji - nie są takie same, są dokładnie proporcjonalne względem siebie.

Teraz sytuacja więcej niż dwóch grup. Po pierwsze, powiedzmy, że LDA (jego ekstrakcja, a nie etap klasyfikacji) jest równoważny (wyniki liniowo powiązane) z analizą korelacji kanonicznej, jeśli zmienisz grupowanie DV w zestaw zmiennych zmiennych (z jedną nadmiarową z nich zrezygnowaną) i wykonasz kanoniczność analiza z zestawami „IV” i „manekiny”. Odmiany kanoniczne po stronie zestawu „IV” są tym, co LDA nazywa „funkcjami dyskryminującymi” lub „dyskryminującymi”.

Zatem w jaki sposób analiza kanoniczna jest powiązana z regresją liniową? Analiza kanoniczna jest w istocie metodą MANOVA (w sensie „wielowymiarowej wielokrotnej regresji liniowej” lub „wielowymiarowym ogólnym modelem liniowym”) pogłębioną w utajoną strukturęrelacji między DV i IV. Te dwie odmiany są rozkładane w swoich wzajemnych relacjach na utajone „wariacje kanoniczne”. Weźmy najprostszy przykład, Y vs X1 X2 X3. Maksymalizacja korelacji między dwiema stronami to regresja liniowa (jeśli przewidujesz Y przez Xs) lub - co jest tym samym - MANOVA (jeśli przewidujesz Xs przez Y). Korelacja jest jednowymiarowa (o wielkości R ^ 2 = ślad Pillai), ponieważ mniejszy zbiór Y składa się tylko z jednej zmiennej. Teraz weźmy te dwa zestawy: Y1 Y2 vs X1 x2 x3. Korelacja maksymalizowana tutaj jest dwuwymiarowa, ponieważ mniejszy zbiór zawiera 2 zmienne. Pierwszy i silniejszy ukryty wymiar korelacji nazywa się pierwszą korelacją kanoniczną, a pozostałą część, prostopadłą do niej, drugą korelacją kanoniczną. Więc, MANOVA (lub regresja liniowa) pyta tylko, jakie są częściowe role (współczynniki) zmiennych w całej dwuwymiarowej korelacji zbiorów; podczas gdy analiza kanoniczna po prostu idzie poniżej, aby zapytać, jakie są częściowe role zmiennych w pierwszym wymiarze korelacyjnym i drugim.

Zatem kanoniczna analiza korelacji jest wielowymiarową regresją liniową pogłębioną w utajoną strukturę zależności między DV i IV. Analiza dyskryminacyjna jest szczególnym przypadkiem kanonicznej analizy korelacji ( zobacz dokładnie jak ). Oto odpowiedź na temat związku LDA z regresją liniową w ogólnym przypadku więcej niż dwóch grup.

Zauważ, że moja odpowiedź wcale nie postrzega LDA jako techniki klasyfikacji. Dyskutowałem o LDA tylko jako technikę ekstrakcji utajonych. Klasyfikacja jest drugim i niezależnym etapem LDA (opisałem ją tutaj ). @Michael Chernick koncentrował się na tym w swoich odpowiedziach.

— ttnphns
źródło

Dlaczego potrzebuję „analizy korelacji kanonicznej” i co ona tutaj robi? Dzięki.

— zca0

1

+1 (dawno temu). Czy znasz jakieś odniesienia, które omawiają (bardziej szczegółowo) ten związek między MANOVA / CCA / regresją między X a matrycą grupowych manekinów Y i LDA (w ogólnym przypadku więcej niż dwóch grup)? Studiuję teraz ten temat i myślę, że już go mniej więcej rozgryzłem, ale kiedy szukam regression formulation of LDA, zaskakująco trudno jest coś znaleźć - po 2000 roku opublikowano wiele prac naukowych, w których napisano, że takie sformułowanie nie istnieje lub próbuje zasugerować jeden. Czy jest może dobre [stare] odniesienie?

— ameba mówi Przywróć Monikę

3

Mmm .. Zaledwie kilka dokumentów pochodzących szybko przeszkadza: Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. Jeśli nie możesz ich znaleźć w Internecie, mogę ci wysłać. Jeśli znajdziesz więcej i lepsze źródła - daj nam znać.

— ttnphns

1

Mój fragment wcale nie sugerował, że można uzyskać współczynniki CCA, mając pod ręką tylko wyniki regresji (MANOVA). Mówiłem, że MANOVA to „powierzchnia”, a CCA to bardziej „głębokie” warstwy tego samego przedsiębiorstwa analitycznego. Nie powiedziałem, że są synonimami lub że jeden jest zwykłym przypadkiem drugiego.

— ttnphns

1

Widzę. Postanowiłem opublikować inną odpowiedź tutaj, podając matematyczne szczegóły równoważności LDA / regresji.

— ameba mówi Przywróć Monikę

11

Oto odniesienie do jednego z artykułów Efrona: Efektywność regresji logistycznej w porównaniu z normalną analizą dyskryminacyjną , 1975.

Kolejny istotny artykuł to Ng & Jordan, 2001, On Discriminative vs. Generative classifierers: Porównanie regresji logistycznej i naiwnych Bayesa . A oto streszczenie komentarza Xue & Titterington z 2008 r., W którym wspomniane są prace O'Neilla dotyczące jego rozprawy doktorskiej:

Porównanie klasyfikatorów generatywnych i dyskryminacyjnych jest tematem ciągłym. Jako ważny wkład w ten temat, oparty na ich teoretycznych i empirycznych porównaniach między naiwnym klasyfikatorem Bayesa i liniową regresją logistyczną, Ng i Jordan (NIPS 841 --- 848, 2001) twierdzili, że istnieją dwa odrębne reżimy wydajności między generatywnym oraz dyskryminujące klasyfikatory w odniesieniu do wielkości zestawu treningowego. W niniejszym artykule nasze badania empiryczne i symulacyjne, jako uzupełnienie ich pracy, sugerują jednak, że istnienie dwóch odrębnych reżimów może nie być tak niezawodne. Ponadto w przypadku zestawów danych ze świata rzeczywistego jak dotąd nie ma teoretycznie poprawnego, ogólnego kryterium wyboru między podejściem dyskryminującym a generatywnym do klasyfikacji obserwacji $x$ do klasy $y$ ; wybór zależy od względnej pewności, jaką mamy w poprawności specyfikacji albo $p(y|x)$ albo $p(x, y)$ dla danych. Może to w pewnym stopniu stanowić dowód na to, dlaczego Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) i O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) preferują normalną liniową analizę dyskryminacyjną (LDA), gdy nie występuje błędna specyfikacja modelu, ale inne badania empiryczne mogą zamiast tego preferować liniową regresję logistyczną. Ponadto sugerujemy, że parowanie LDA przy założeniu wspólnej diagonalnej macierzy kowariancji (LDA) lub naiwnego klasyfikatora Bayesa i liniowej regresji logistycznej może nie być idealne, a zatem może nie być wiarygodne w przypadku jakichkolwiek twierdzeń wynikających z porównania między LDA lub naiwny klasyfikator Bayesa i liniowa regresja logistyczna, które mają zostać uogólnione na wszystkie generatywne i dyskryminujące klasyfikatory.

Istnieje wiele innych odnośników na ten temat, które można znaleźć w Internecie.

— Michael R. Chernick
źródło

+1 za wiele dobrze umiejscowionych odniesień do (teraz wyjaśnionego przez PO) tematu regresji logistycznej vs. LDA.

— Makro

1

Oto kolejne porównanie generatywnych i dyskryminujących klasyfikatorów Jarosława Bułatowa na Quora: quora.com/…

— Pardis

Również powiązany temat, stats.stackexchange.com/q/95247/3277

— ttnphns

7

Celem tej odpowiedzi jest wyjaśnienie dokładnej matematycznej zależności między liniową analizą dyskryminacyjną (LDA) a wielowymiarową regresją liniową (MLR). Okaże się, że poprawne ramy zapewnia regresja o zmniejszonej randze (RRR).

Pokażemy, że LDA jest równoważne RRR matrycy wskaźnika klasy bieli na macierzy danych.

Notacja

Niech będzie macierzą z punktami danych w wierszach i zmiennymi w kolumnach. Każdy punkt należy do jednej z klas lub grup. Punkt należy do klasy klasy . $\newcommand{\X}{\mathbf X}\X$ $n\times d$ $\newcommand{\x}{\mathbf x}\x_i$ $k$ $\x_i$ $g(i)$

Niech będzie członkostwem w grupie kodującej macierz wskaźników w następujący sposób: jeśli należy do klasy , a przeciwnym razie. Istnieje punkty danych w klasie ; oczywiście . $\newcommand{\G}{\mathbf G}\G$ $n \times k$ $G_{ij}=1$ $\x_i$ $j$ $G_{ij}=0$ $n_j$ $j$ $\sum n_j = n$

Zakładamy, że dane są wyśrodkowane, więc średnia globalna jest równa zero, . Niech będzie średnią klasy . $\newcommand{\bmu}{\boldsymbol \mu}\bmu=0$ $\bmu_j$ $j$

LDA

Całkowitą macierz rozproszenia można rozłożyć na sumę macierzy rozproszenia między klasami i wewnątrz klasy zdefiniowanych w następujący sposób: Można sprawdzić, czy . LDA poszukuje osi dyskryminujących, które mają maksymalną wariancję między grupami i minimalną wariancję projekcji wewnątrz grupy. W szczególności pierwsza oś dyskryminująca to wektor jednostkowy maksymalizująca , a pierwsza dyskryminująca osie ułożone razem w macierz $\newcommand{\C}{\mathbf C}\C=\X^\top \X$

\begin{aligned} C_{b} & = \sum_{j} n_{j} μ_{j} μ_{j}^{⊤} \\ C_{w} & = \sum (x_{i} - μ_{g (i)}) (x_{i} - μ_{g (i)})^{⊤} . \end{aligned}

$\begin{align} \C_b &= \sum_j n_j \bmu_j \bmu_j^\top \\ \C_w &= \sum(\x_i - \bmu_{g(i)})(\x_i - \bmu_{g(i)})^\top. \end{align}$

C = C_{b} + C_{w}

$\C = \C_b + \C_w$

w

$\newcommand{\w}{\mathbf w}\w$

w^{⊤} C_{b} w / (w^{⊤} C_{w} w)

$\w^\top \C_b \w / (\w^\top \C_w \w)$

p

$p$

W

$\newcommand{\W}{\mathbf W}\W$ powinien zmaksymalizować ślad

L_{L D A} = tr (W^{⊤} C_{b} W (W^{⊤} C_{w} W)^{- 1}) .

$\DeclareMathOperator{\tr}{tr} L_\mathrm{LDA}=\tr\left(\W^\top \C_b \W (\W^\top \C_w \W)^{-1}\right).$

Zakładając, że ma pełną rangę, rozwiązanie LDA jest macierzą wektorów własnych (uporządkowanych według wartości własnych w malejącym porządku). $\C_w$ $\W_\mathrm{LDA}$ $\C_w^{-1} \C_b$

To była zwykła historia. Dokonajmy teraz dwóch ważnych obserwacji.

Po pierwsze, wewnątrzklasowa macierz rozproszenia można zastąpić całkowitą macierzą rozproszenia (ostatecznie ponieważ maksymalizacja jest równoważna z maksymalizacją ) i rzeczywiście łatwo zauważyć, że ma te same wektory własne. $b/w$ $b/(b+w)$ $\C^{-1} \C_b$

Po drugie, macierz rozproszenia między klasami może być wyrażona za pomocą zdefiniowanej powyżej macierzy członkostwa w grupie. Rzeczywiście, jest macierzą sum grup. Aby uzyskać macierz średnich grup, należy ją pomnożyć przez macierz diagonalną z na przekątnej; Dało o . Stąd macierz średnich grupowych to ( sapienti zauważy, że jest to formuła regresji). Aby uzyskać , musimy wziąć jego macierz rozproszenia, ważoną tą samą macierzą diagonalną, otrzymując Jeśli wszystkie są identyczne i równe $\G^\top \X$ $n_j$ $\G^\top \G$ $(\G^\top \G)^{-1}\G^\top \X$ $\C_b$

{do}_{b} = X^{⊤} sol ({sol}^{⊤} sol)^{- 1} {sol}^{⊤} X .

$\C_b = \X^\top \G (\G^\top \G)^{-1}\G^\top \X.$

n_{j}

$n_j$

m

$m$ („zrównoważony zestaw danych”), wówczas to wyrażenie upraszcza się do .

X^{⊤} G G^{⊤} X / m

$\X^\top \G \G^\top \X / m$

Możemy zdefiniować znormalizowaną macierz wskaźników jako posiadające gdzie ma . Następnie zarówno dla symetrycznych i niesymetrycznych zbiorów danych, ekspresja jest tylko . Zauważ, że jest, aż do stałego współczynnika, bieloną macierzą wskaźników: . $\newcommand{\tG}{\widetilde {\mathbf G}}\tG$ $1/\sqrt{n_j}$ $\G$ $1$ $\C_b = \X^\top \tG \tG^\top \X$ $\tG$ $\tG = \G(\G^\top \G)^{-1/2}$

Regresja

Dla uproszczenia zaczniemy od przypadku zbilansowanego zestawu danych.

Rozważmy regresji liniowej o . Znajduje minimalizując . Zmniejszona regresja rang robi to samo pod warunkiem, że powinna mieć daną rangę . Jeśli tak, to można zapisać jako z i mając kolumny . Można pokazać, że rozwiązanie rangi drugiej można uzyskać z rozwiązania rangi, utrzymując pierwszą kolumnę i dodając dodatkową kolumnę itp. $\G$ $\X$ $\newcommand{\B}{\mathbf B}\B$ $\| \G - \X \B\|^2$ $\B$ $p$ $\B$ $\newcommand{\D}{\mathbf D} \newcommand{\F}{\mathbf F} \B=\D\F^\top$ $\D$ $\F$ $p$

Aby ustalić związek między LDA a regresją liniową, udowodnimy, że pokrywa się z . $\D$ $\W_\mathrm{LDA}$

Dowód jest prosty. Dla danego optymalne można znaleźć za pomocą regresji: . Podłączając to do funkcji utraty, otrzymujemy które można zapisać jako śledź za pomocą tożsamości . Po łatwych manipulacjach otrzymujemy, że regresja jest równoważna maksymalizacji (!) Następującego przerażającego śladu: co w rzeczywistości jest niczym innym niż $\D$ $\F$ $\F^\top = (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G$

‖ sol - X re ({re}^{⊤} X^{⊤} X re)^{- 1} {re}^{⊤} X^{⊤} sol ‖^{2)},

$\| \G - \X \D (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G\|^2,$

‖ A ‖^{2} = t r (A A^{⊤})

$\|\mathbf A\|^2=\mathrm{tr}(\mathbf A \mathbf A^\top)$

tr ({re}^{⊤} X^{⊤} sol {sol}^{⊤} X re ({re}^{⊤} X^{⊤} X re)^{- 1}),

$\tr\left(\D^\top \X^\top \G \G^\top \X \D (\D^\top \X^\top \X \D)^{-1}\right),$

\dots = tr ({re}^{⊤} {do}_{b} re ({re}^{⊤} do re)^{- 1}) / m \sim {L.}_{L. re ZA} .

$\ldots = \tr\left(\D^\top \C_b \D (\D^\top \C \D)^{-1}\right)/m \sim L_\mathrm{LDA}.$

To kończy dowód. Niesymetrycznych zbiorów danych musimy zastąpić z . $\G$ $\tG$

Podobnie można wykazać, że dodanie regularyzacji grzbietu do regresji zredukowanej rangi jest równoważne z regularyzowaną LDA.

Związek między LDA, CCA i RRR

W swojej odpowiedzi @ttnphns nawiązał do kanonicznej analizy korelacji (CCA). Rzeczywiście, LDA można wykazać równoważne CCA między i . Ponadto CCA pomiędzy każdym i może być zapisana jako RRR Przewidywanie wybielony z . Reszta wynika z tego. $\X$ $\G$ $\newcommand{\Y}{\mathbf Y}\Y$ $\X$ $\Y$ $\X$

Bibliografia

Trudno powiedzieć, kto zasługuje na uznanie za to, co zostało przedstawione powyżej.

Istnieje niedawny artykuł konferencyjny Cai i in. (2013) O ekwiwalencie regresji niskiej rangi i regresji opartej na analizie dyskryminacji liniowej, która przedstawia dokładnie taki sam dowód jak powyżej, ale stwarza wrażenie, że wymyślili to podejście. Z pewnością tak nie jest. Torre napisał szczegółowe omówienie tego, jak większość powszechnych liniowych metod wielowymiarowych można postrzegać jako regresję zmniejszonej rangi, patrz A Least-Squares Framework for Component Analysis , 2009, a późniejszy rozdział książki A unifikacja metod analizy składników , 2013; przedstawia ten sam argument, ale też nie podaje żadnych odniesień. Materiał ten jest także omawiany w podręczniku Nowoczesne wielowymiarowe techniki statystyczne (2008) autorstwa Izenmana, który wprowadził RRR w 1975 r.

Związek między LDA i CCA najwyraźniej sięga do Bartlett, 1938, Dalsze aspekty teorii regresji wielokrotnej - to jest odniesienie, z którym często się spotykam (ale nie weryfikuję). Zależność między CCA a RRR jest opisana w Izenman, 1975, Regresja o zmniejszonej rangi dla wielowymiarowego modelu liniowego . Więc wszystkie te pomysły istnieją już od jakiegoś czasu.

— ameba mówi Przywróć Monikę
źródło

+1 ode mnie za szczegóły i za odniesienie się do mojej odpowiedzi oraz za wprowadzenie RRR tutaj (z wyprzedzeniem głosowanie, ponieważ minie jakiś nieznany czas, zanim usiądę, by rozerwać całą tę wspaniałą / groźną algebrę!).

— ttnphns

0

Regresja liniowa i liniowa analiza dyskryminacyjna są bardzo różne. Regresja liniowa wiąże zmienną zależną ze zbiorem niezależnych zmiennych predykcyjnych. Chodzi o to, aby znaleźć funkcję liniową w parametrach, które najlepiej pasują do danych. Nie musi nawet być liniowa w zmiennych towarzyszących. Natomiast liniowa analiza dyskryminacyjna jest procedurą klasyfikowania obiektów do kategorii. W przypadku problemu dwóch klas stara się znaleźć najlepszą oddzielającą hiperpłaszczyznę do dzielenia grup na dwie kategorie. Tutaj najlepiej oznacza, że minimalizuje funkcję straty, która jest liniową kombinacją poziomów błędów. Dla trzech lub więcej grup znajduje najlepszy zestaw hiperpłaszczyzn (k-1 dla problemu klasy k). W analizie dyskryminacyjnej hiperplany są liniowe w zmiennych cech.

Głównym podobieństwem między nimi jest termin liniowy w tytułach.

— Michael R. Chernick
źródło

Przepraszam, źle napisałem Powinna być regresja i LDA. Widziałem kilka artykułów na temat dyskryminacji liniowej poprzez regresję, ale nie wiem, jak to działa. Myślę, że LDA i regresja logistyczna dla dwóch klas mają pewne relacje, ale nie są w stanie jasno powiedzieć, czym one są. A dla więcej niż dwóch klas nie wiem, czy są jakieś relacje.

— zca0

1

Tak, istnieje związek między regresją logistyczną a liniową analizą dyskryminacyjną. Efron i jego uczeń Terry O'Neilll napisali o tym pod koniec lat siedemdziesiątych. Spróbuję znaleźć link do referencji.

— Michael R. Chernick

2

Oto powiązane pytanie i odpowiedzi dotyczące CV. stats.stackexchange.com/questions/14697/…

— Michael R.

-1, ponieważ tak naprawdę istnieje głęboki związek między LDA a regresją, jak wyjaśniamy zarówno @ttnphns, jak i ja w naszych odpowiedziach.

— ameba mówi Przywróć Monikę