Jak sugeruje AdamO w powyższym komentarzu, tak naprawdę nie można zrobić nic lepszego niż przeczytać Rozdział 4 elementów uczenia statystycznego (który nazywam HTF), który porównuje LDA z innymi liniowymi metodami klasyfikacji, podając wiele przykładów, a także omawia zastosowanie LDA jako techniki redukcji wymiarów w żyłach PCA, która, jak zauważa ttnphns, jest dość popularna.
Z punktu widzenia klasyfikacji myślę, że kluczową różnicą jest to. Wyobraź sobie, że masz dwie klasy i chcesz je rozdzielić. Każda klasa ma funkcję gęstości prawdopodobieństwa. Najlepszą możliwą sytuacją byłoby, gdybyś znał te funkcje gęstości, ponieważ wtedy możesz przewidzieć, do której klasy należałby punkt, oceniając gęstości właściwe dla danej klasy w tym punkcie.
Niektóre rodzaje klasyfikatorów działają poprzez znalezienie aproksymacji do funkcji gęstości klas. LDA jest jednym z nich; przyjmuje założenie, że gęstości są wielowymiarowe normalne z tą samą macierzą kowariancji. To mocne założenie, ale jeśli jest w przybliżeniu prawidłowe, otrzymujesz dobry klasyfikator. Wiele innych klasyfikatorów również przyjmuje takie podejście, ale starają się być bardziej elastyczni niż zakładając normalność. Na przykład patrz strona 108 HTF.
Z drugiej strony, na stronie 210, HTF ostrzega:
Jeśli ostatecznym celem jest klasyfikacja, to dokładne poznanie gęstości poszczególnych klas może być niepotrzebne, a w rzeczywistości może wprowadzać w błąd.
Innym podejściem jest po prostu poszukiwanie granicy między dwiema klasami, co robi perceptron. Bardziej wyrafinowaną wersją tego jest maszyna wektora wsparcia. Metody te można także łączyć z dodawaniem funkcji do danych za pomocą techniki zwanej kernelizacją. Nie działa to z LDA, ponieważ nie zachowuje normalności, ale nie stanowi problemu dla klasyfikatora, który szuka tylko oddzielającej hiperpłaszczyzny.
Różnica między LDA a klasyfikatorem, który szuka oddzielającej hiperpłaszczyzny, jest jak różnica między testem t a jakąś nieparamteryczną alternatywą w zwykłych statystykach. Ten drugi jest bardziej niezawodny (na przykład dla wartości odstających), ale ten drugi jest optymalny, jeśli jego założenia są spełnione.
Jeszcze jedna uwaga: warto wspomnieć, że niektórzy ludzie mogą mieć kulturowe powody do korzystania z metod takich jak LDA lub regresja logistyczna, które mogą obowiązkowo wyrzucać tabele ANOVA, testy hipotez i uspokajać takie rzeczy. LDA został wynaleziony przez Fishera; perceptron był pierwotnie modelem neuronu ludzkiego lub zwierzęcego i nie miał żadnego związku ze statystykami. Działa to również w drugą stronę; niektórzy ludzie mogą preferować takie metody, jak obsługa maszyn wektorowych, ponieważ mają one rodzaj najnowocześniejszych narzędzi hipsterskich, z którymi metody XX wieku po prostu nie mogą się równać. To nie znaczy, że są lepsze. (Dobry przykład jest omawiany w Uczeniu maszynowym dla hakerów , jeśli dobrze pamiętam.)