Analiza dyskryminacyjna a regresja logistyczna

Znalazłem zalety analizy dyskryminacyjnej i mam pytania na ich temat. Więc:

Gdy klasy są dobrze rozdzielone, oszacowania parametrów regresji logistycznej są zaskakująco niestabilne. Współczynniki mogą sięgać nieskończoności. LDA nie cierpi z powodu tego problemu.

Jeśli liczba cech jest niewielka, a rozkład predyktorów $X$ jest w przybliżeniu normalny w każdej z klas, liniowy model dyskryminacyjny jest ponownie bardziej stabilny niż model regresji logistycznej.

Czym jest stabilność i dlaczego jest ważna? (Jeśli regresja logistyczna zapewnia dobre dopasowanie, które spełnia swoje zadanie, to dlaczego miałbym dbać o stabilność?)

LDA jest popularna, gdy mamy więcej niż dwie klasy odpowiedzi, ponieważ zapewnia również nisko wymiarowe widoki danych.

Po prostu tego nie rozumiem. W jaki sposób LDA zapewnia widoki mało wymiarowe?
Jeśli możesz wymienić więcej zalet lub wad, byłoby miło.

— Jurij
źródło

Możesz także przeczytać inne pytania na ten temat (lda vs. logistyka). Proszę przeszukać tę stronę.

— ttnphns

Odpowiedzi:

Gdy klasy są dobrze rozdzielone, oszacowania parametrów regresji logistycznej są zaskakująco niestabilne. Współczynniki mogą sięgać nieskończoności. LDA nie cierpi z powodu tego problemu.

Jeśli istnieją zmienne towarzyszące, które mogą doskonale przewidzieć wynik binarny, to algorytm regresji logistycznej, tj. Ocena Fishera, nawet się nie zbiegnie. Jeśli używasz R lub SAS, otrzymasz ostrzeżenie, że prawdopodobieństwa zerowe i jedno zostały obliczone i algorytm się zawiesił. Jest to skrajny przypadek idealnej separacji, ale nawet jeśli dane są rozdzielone tylko w dużym stopniu, a nie idealnie, estymator maksymalnego prawdopodobieństwa może nie istnieć, a nawet jeśli tak jest, szacunki nie są wiarygodne. Wynikowe dopasowanie wcale nie jest dobre. Istnieje wiele wątków dotyczących problemu separacji na tej stronie, więc na pewno spójrz.

W przeciwieństwie do tego, często nie ma problemów z oszacowaniem dyskryminacji Fishera. Może się to nadal zdarzyć, jeśli macierz kowariancji pomiędzy lub wewnątrz jest pojedyncza, ale jest to raczej rzadki przypadek. W rzeczywistości, jeśli nastąpi całkowite lub quasi-całkowite rozdzielenie, tym lepiej, ponieważ dyskryminujący jest bardziej skuteczny.

Warto również wspomnieć, że wbrew powszechnemu przekonaniu, LDA nie opiera się na żadnych założeniach dotyczących dystrybucji. Wymagamy tylko domyślnie równości macierzy kowariancji populacyjnych, ponieważ do macierzy kowariancji zastosowano zbiorczy estymator. Przy dodatkowych założeniach normalności, równych wcześniejszych prawdopodobieństwach i kosztach błędnej klasyfikacji, LDA jest optymalna w tym sensie, że minimalizuje prawdopodobieństwo błędnej klasyfikacji.

W jaki sposób LDA zapewnia widoki mało wymiarowe?

Łatwiej to zauważyć w przypadku dwóch populacji i dwóch zmiennych. Oto obrazowe przedstawienie działania LDA w tym przypadku. Pamiętaj, że szukamy liniowych kombinacji zmiennych, które maksymalizują separowalność.

Dlatego dane są rzutowane na wektor, którego kierunek lepiej osiąga to rozdzielenie. Jak stwierdzamy, że wektor jest interesującym problemem algebry liniowej, w zasadzie maksymalizujemy iloraz Rayleigha, ale odłóżmy to na bok. Jeśli dane są rzutowane na ten wektor, wymiar zostaje zmniejszony z dwóch do jednego.

$p$ $g$ $\min(g-1,p)$

Jeśli możesz wymienić więcej zalet lub wad, byłoby miło.

Niski wymiar reprezentacji nie jest jednak pozbawiony wad, z których najważniejszą jest oczywiście utrata informacji. Jest to mniejszy problem, gdy dane można rozdzielić liniowo, ale jeśli nie są, utrata informacji może być znaczna, a klasyfikator będzie działał słabo.

Mogą również zdarzyć się przypadki, w których równość macierzy kowariancji może nie być możliwym do przyjęcia założeniem. Możesz zastosować test, aby się upewnić, ale testy te są bardzo wrażliwe na odstępstwa od normalności, więc musisz przyjąć to dodatkowe założenie, a także przetestować je. Jeśli okaże się, że populacje są normalne z nierównymi macierzami kowariancji, można zamiast tego zastosować kwadratową regułę klasyfikacji (QDA), ale uważam, że jest to raczej niezręczna reguła, nie wspominając o sprzeczności z intuicją w dużych wymiarach.

Ogólnie rzecz biorąc, główną zaletą LDA jest istnienie wyraźnego rozwiązania i jego wygoda obliczeniowa, czego nie ma w przypadku bardziej zaawansowanych technik klasyfikacji, takich jak SVM lub sieci neuronowe. Cena, którą płacimy, to zestaw założeń, które się z nią wiążą, mianowicie liniowa separowalność i równość macierzy kowariancji.

Mam nadzieję że to pomoże.

EDYCJA : Podejrzewam, że moje twierdzenie, że LDA w określonych przypadkach, o których wspomniałem, nie wymaga żadnych założeń dystrybucyjnych innych niż równość macierzy kowariancji kosztowało mnie głosowanie negatywne. Jest to jednak nie mniej prawdą, więc pozwólcie, że sprecyzuję.

Jeśli pozwolimy oznacza średnie z pierwszej i drugiej populacji, a oznacza połączoną macierz kowariancji, Dyskryminacja Fishera rozwiązuje problem $\bar{\mathbf{x}}_i, \ i = 1,2$ $\mathbf{S}_{\text{pooled}}$

max_{za} \frac{{({za}^{T.} {\bar{x}}_{1} - {za}^{T.} {\bar{x}}_{2)})}^{2)}}{{za}^{T.} {S.}_{połączone} za} = max_{za} \frac{{({za}^{T.} re)}^{2)}}{{za}^{T.} {S.}_{połączone} za}

$\max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \bar{\mathbf{x}}_1 - \mathbf{a}^{T} \bar{\mathbf{x}}_2 \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} } = \max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \mathbf{d} \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} }$

Można wykazać rozwiązanie tego problemu (aż do stałej)

za = {S.}_{połączone}^{- 1} re = {S.}_{połączone}^{- 1} ({\bar{x}}_{1} - {\bar{x}}_{2)})

$\mathbf{a} = \mathbf{S}_{\text{pooled}}^{-1} \mathbf{d} = \mathbf{S}_{\text{pooled}}^{-1} \left( \bar{\mathbf{x}}_1 - \bar{\mathbf{x}}_2 \right)$

Jest to równoważne z LDA, którą wyprowadzasz przy założeniu normalności, równych macierzy kowariancji, kosztów błędnej klasyfikacji i wcześniejszych prawdopodobieństw, prawda? No tak, z wyjątkiem tego, że nie przyjęliśmy normalności.

Nic nie stoi na przeszkodzie, aby użyć powyższego dyskryminatora we wszystkich ustawieniach, nawet jeśli macierze kowariancji nie są tak naprawdę równe. Może nie być optymalny w sensie oczekiwanego kosztu błędnej klasyfikacji (ECM), ale jest to nadzorowane uczenie się, więc zawsze możesz ocenić jego wydajność, na przykład stosując procedurę wstrzymania.

Bibliografia

Bishop, Christopher M. Sieci neuronowe do rozpoznawania wzorców. Oxford University Press, 1995.

Johnson, Richard Arnold i Dean W. Wichern. Zastosowana wielowymiarowa analiza statystyczna. Vol. 4. Englewood Cliffs, NJ: Prentice hall, 1992.

— JohnK
źródło

(Nie jestem użytkownikiem, który przegłosował). Aby spróbować pogodzić twoją odpowiedź z Frankiem Harellem, wydaje mi się, że nadal należy założyć, że wszystkie zmienne są ciągłe (w przeciwnym razie myślę, że maksymalny iloraz Rayleigha nie byłby unikalny).

— user603

@ user603 Nigdzie nie widziałem tego warunku. Rozwiązanie jest ustalane tylko do stałej.

— JohnK

John, wyobraź sobie, że istnieją tylko 2 klasy (a więc tylko jedna linia dyskryminująca) o identycznych, symetrycznych (elipsoidalnych) rozkładach i równych wcześniejszych prawdopodobieństwach. W rzeczywistości nie musimy zakładać specyficznie normalnej dystrybucji, ponieważ nie potrzebujemy żadnego pliku pdf, aby przypisać sprawę do klasy. W bardziej złożonych ustawieniach (takich jak klasy 3+) musimy użyć pliku pdf i zwykle jest to normalne.

— ttnphns

W^{- 1} B

$\mathbf{W}^{-1} \mathbf{B}$

W

$\mathbf{W}$

B

$\mathbf{B}$

John, twój ostatni komentarz dotyczy ciebie i mnie.

— ttnphns

LDA przyjmuje surowe założenia dystrybucyjne (wielowymiarowa normalność wszystkich predyktorów) w przeciwieństwie do regresji logistycznej. Spróbuj uzyskać prawdopodobieństwo prawdopodobieństwa członkostwa w klasie na podstawie płci badanych, a zobaczysz, co mam na myśli - prawdopodobieństwa nie będą dokładne.

$Y=1$ $\beta$ $\pm \infty$ $\pm 30$

Zobacz to, aby uzyskać więcej informacji.

Zauważ, że jeśli utrzymuje się wielowymiarowa normalność, to według twierdzenia Bayesa zachodzą założenia regresji logistycznej. Odwrotna sytuacja nie jest prawdą.

Normalność (a przynajmniej symetria) musi prawie obowiązywać dla wariancji i kowariancji, aby „wykonać zadanie”. Nie-wielowymiarowe normalnie dystrybuowane predyktory zaszkodzą nawet fazie ekstrakcji dyskryminacyjnej.

— Frank Harrell
źródło

Moim zdaniem normalność jest potrzebna szczególnie na etapie klasyfikacji (przewidywania klas) LDA. Nie jest to konieczne na etapie ekstrakcji dyskryminatorów (redukcji wymiarowości), który jednak nadal zakłada jednorodność wariancji-kowariancji. (Co ciekawe, to ostatnie założenie może zostać w pewnym stopniu ujawnione przy klasyfikacji: możesz zastosować osobne kowariancje wewnątrzklasowe dla dyskryminujących tam osób).

— ttnphns

t

$t$

t

$t$

t

$t$

Tak SD przyjmuje różne założenia i jest mało odporny. W mniejszym stopniu średnia sprawia, że niektóre założenia mają sens. Najmniejsze kwadraty, PCA i LDA skutecznie przyjmują więcej założeń dystrybucyjnych, niż wielu ludziom się wydaje.

— Frank Harrell,

Takie rozumowanie mnie nie przekonuje i nadal uważam, że głosowanie było niesprawiedliwe, ale nie jestem autorytetem w tej sprawie. Referencje, które przedstawiłem, powiedzą ci to samo.

— JohnK

Gdy klasy są dobrze rozdzielone, oszacowania parametrów regresji logistycznej są zaskakująco niestabilne. Współczynniki mogą sięgać nieskończoności. LDA nie cierpi z powodu tego problemu.

Oświadczenie: To, co następuje poniżej, całkowicie pozbawione jest matematycznego rygoru.

Aby dobrze dopasować funkcję (nieliniową), potrzebujesz obserwacji we wszystkich obszarach funkcji, w których „zmienia się jej kształt”. Regresja logistyczna dopasowuje funkcję sigmoidalną do danych:

W przypadku dobrze oddzielonych klas wszystkie obserwacje spadną na dwa „końce”, gdzie sigmoid zbliża się do swoich asymptot (0 i 1). Ponieważ wszystkie sigmoidy „wyglądają tak samo” w tych regionach, że tak powiem, nic dziwnego, że słabo dopasowany algorytm będzie miał trudności ze znalezieniem „właściwego”.

Rzućmy okiem na dwa (miejmy nadzieję pouczające) przykłady obliczone za pomocą glm()funkcji R.

Przypadek 1: Dwie grupy pokrywają się w pewnym stopniu:

a obserwacje ładnie rozkładają się wokół punktu przegięcia dopasowanej sigmoidy:

Są to parametry dopasowane do błędów o niskim standardzie:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

a dewiacja również wygląda OK:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Przypadek 2: Dwie grupy są dobrze rozdzielone:

a wszystkie obserwacje dotyczą praktycznie asymptot. glm()Funkcja dokłada wszelkich starań, aby dopasować coś, ale skarżył się numerycznie 0 lub 1 prawdopodobieństwa, ponieważ są po prostu niedostępne „dostać kształt esicy prawo” wokół jego punktu przegięcia obserwacje:

Możesz zdiagnozować problem, zauważając, że standardowe błędy szacowanych parametrów przechodzą przez dach:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

a jednocześnie dewiacja wygląda podejrzanie dobrze (ponieważ obserwacje dobrze pasują do asymptot):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

Przynajmniej intuicyjnie powinno być jasne z tych rozważań, dlaczego „oszacowania parametrów regresji logistycznej są zaskakująco niestabilne”.

— Laryx Decidua
źródło

Spójrz na odpowiedź @Frank Harrell, która wyraźnie się z tobą nie zgadza! I przestudiuj jego linki i referencje ...

— kjetil b halvorsen

@kjetilbhalvorsen Moim głównym celem jest intuicyjna ilustracja „zaskakująco niestabilnego” dopasowania. Usunąłem ostatnie zdanie odnoszące się do LDA.

— Laryx Decidua