Regresja logistyczna a LDA jako klasyfikatory dwuklasowe

36

Próbuję owinąć głowę wokół różnicy statystycznej między liniową analizą dyskryminacyjną a regresją logistyczną . Czy słusznie rozumiem, że w przypadku problemu klasyfikacji dwóch klas LDA przewiduje dwie funkcje gęstości normalnej (po jednej dla każdej klasy), które tworzą granicę liniową w miejscu ich przecięcia, podczas gdy regresja logistyczna przewiduje jedynie funkcję logarytmiczno-nieparzystą między dwiema klasami, które tworzy granicę, ale nie przyjmuje funkcji gęstości dla każdej klasy?

— użytkownik1885116
źródło

Zobacz także podobne pytanie stats.stackexchange.com/q/14697/3277

— ttnphns

Powiązana odpowiedź, stats.stackexchange.com/a/31466/3277

— ttnphns

35

Wydaje mi się, że masz rację. Regresja logistyczna rzeczywiście nie zakłada żadnych konkretnych kształtów gęstości w przestrzeni zmiennych predykcyjnych, ale LDA tak. Oto kilka różnic między dwiema analizami, krótko.

Binarna regresja logistyczna (BLR) vs. liniowa analiza dyskryminacyjna (z 2 grupami: znana również jako LDA Fishera):

BLR : na podstawie oszacowania maksymalnego prawdopodobieństwa. LDA : Na podstawie oszacowania metodą najmniejszych kwadratów; równoważne regresji liniowej z predykcją binarną (współczynniki są proporcjonalne, a R-kwadrat = lambda 1-Wilka).
BLR : Oszacowuje prawdopodobieństwo (członkostwa w grupie) natychmiast (predykcja jest traktowana jako prawdopodobieństwo, obserwowane jedno) i warunkowo. LDA : szacuje prawdopodobieństwo od razu (predykcja jest postrzegana jako binowana zmienna ciągła, dyskryminator) za pomocą urządzenia klasyfikacyjnego (takiego jak naiwne Bayesa), które wykorzystuje zarówno informacje warunkowe, jak i marginalne.
BLR : Nie tak wymagający do poziomu skali i formy rozkładu w predyktorach. LDA : Przewidywalnie pożądany poziom przedziału z wielowymiarowym rozkładem normalnym.
BLR : Brak wymagań dotyczących wewnątrzgrupowych macierzy kowariancji predyktorów. LDA : Macierze kowariancji wewnątrz grupy powinny być identyczne w populacji.
$n$ $n$
BLR : Nie tak wrażliwy na wartości odstające. LDA : Dość wrażliwy na wartości odstające.
BLR : Młodsza metoda. LDA : starsza metoda.
BLR : Zwykle preferowany, ponieważ mniej wymagający / bardziej solidny. LDA : Po spełnieniu wszystkich wymagań często klasyfikuje się lepiej niż BLR (asymptotyczna wydajność względna 3/2 razy wyższa).

— ttnphns
źródło

21

Pozwól mi dodać kilka punktów do ładnej listy @ttnphns:

Prognozy Bayesa dotyczące prawdopodobieństwa członkostwa w tylnej klasie LDA również są zgodne z krzywą logistyczną.
[Efron, B. Wydajność regresji logistycznej w porównaniu do normalnej analizy dyskryminacyjnej, J Am Stat Assoc, 70, 892-898 (1975).]
Chociaż ten dokument pokazuje, że względna efektywność LDA jest lepsza niż LR, jeśli założenia LDA są spełnione (zob .: papier Efron powyżej, ostatni punkt @tthnps), zgodnie z elementami uczenia statystycznego w praktyce nie ma prawie żadnej różnicy.
[Hastie, T. i Tibshirani, R. i Friedman, J. The Elements of Statistics Learning; Eksploracja danych, wnioskowanie i przewidywanie Springer Verlag, Nowy Jork, 2009]
Ta znacznie zwiększona względna wydajność LDA ma miejsce głównie w przypadkach asymptotycznych, w których błąd bezwzględny jest praktycznie znikomy.
[Harrell, FE i Lee, KL Porównanie dyskryminacji analizy dyskryminacyjnej i regresji logistycznej w warunkach wielowymiarowej normalności, Biostatistics: Statistics in Biomedical, Health Health and Environmental Sciences, 333-343 (1985).]
Chociaż w praktyce spotkałem się z sytuacjami, w których wielkość próbki o małych wymiarach jest wysoka, LDA wydaje się lepszy (pomimo, że zarówno normalność wielowymiarowa, jak i założenia równej macierzy kowariancji są wyraźnie niespełnione).
[ Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. i Salzer, R. Raman spektroskopowe klasyfikowanie tkanek gwiaździaka: przy użyciu miękkich informacji odniesienia., Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]
Należy jednak pamiętać, że w naszym artykule LR prawdopodobnie boryka się z problemem, że można znaleźć kierunki z (prawie) idealną separowalnością. Z drugiej strony LDA może być mniej poważnie przeregulowana.
Słynne założenia dla LDA są potrzebne tylko do udowodnienia optymalności. Jeśli nie zostaną spełnione, procedura może być nadal dobrą heurystyką.
Różnica, która jest dla mnie ważna w praktyce, ponieważ problemy z klasyfikacją, nad którymi czasem pracuję / często okazują się wcale nie tak wyraźnie problemami z klasyfikacją: LR można łatwo zrobić z danymi, w których referencje mają średni poziom członkostwa w klasie. W końcu jest to technika regresji .
[patrz artykuł powyżej link]
Można powiedzieć, że LR koncentruje się bardziej niż LDA na przykładach w pobliżu granicy klasy i zasadniczo pomija przypadki na „tylnej stronie” dystrybucji.
To wyjaśnia również, dlaczego jest mniej wrażliwy na wartości odstające (tj. Te z tyłu) niż LDA.
(maszyny wektorów wsparcia byłyby klasyfikatorem, który zmierza w tym kierunku do samego końca: tutaj pomija się wszystko oprócz przypadków na granicy)

— cbeleites obsługuje Monikę
źródło