Klasyfikacja w LDA przebiega następująco (podejście Bayesa). [O wydobyciu dyskryminujących można zajrzeć tutaj .]
Zgodnie z twierdzeniem Bayesa poszukiwane prawdopodobieństwo, że mamy do czynienia z klasą , obserwując obecnie punkt to , gdziex P ( k | x ) = P ( k ) ∗ P ( x | k ) / P ( x )kxP.( k | x ) = P( k ) ∗ P( x | k ) / P( x )
k P ( x ) x P ( x | k ) x k kP.( k ) - bezwarunkowe (tło) prawdopodobieństwo klasy ; - bezwarunkowe (tło) prawdopodobieństwo punktu ; - prawdopodobieństwo obecności punktu w klasie , jeżeli zajęta klasa to .kP.( x )xP.( x | k )xkk
„Obserwując obecnie punkt ” będący warunkiem podstawowym, , a zatem mianownik można pominąć. Zatem .P ( x ) = 1 P ( k | x ) = P ( k ) ∗ P ( x | k )xP.( x ) = 1P.( k | x ) = P( k ) ∗ P( x | k )
x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )P.( k ) oznacza wcześniejsze (przedanalityczne) prawdopodobieństwo, że natywną klasą dla jest ; określa użytkownik. Zwykle domyślnie wszystkie klasy otrzymują równe = 1 / liczba_klas. Aby obliczyć , tj. Prawdopodobieństwo (post-analityczne), że natywną klasą dla jest , należy znać .xkP.( k )P.( k )P.( k | x )xkP.( x | k )
P ( x | k ) x k P D F ( x | k ) p pP.( x | k ) - prawdopodobieństwo per se - nie można znaleźć, dla dyskryminatorów głównym problemem LDA są zmienne ciągłe, a nie dyskretne. Ilość wyrażająca w tym przypadku i proporcjonalna do niej to gęstość prawdopodobieństwa (funkcja PDF). Niniejszym musimy obliczyć PDF dla punktu w klasie , , w wymiarowym rozkładzie normalnym utworzonym przez wartości dyskryminatorów. [Zobacz normalna dystrybucja wielowymiarowa Wikipedii]P(x|k)xkPDF(x|k)pp
PDF(x|k)=e−d/2(2π)p/2|S|−−−√)
gdzie - kwadratowa odległość Mahalanobisa [patrz Wikipedia Mahalanobisa odległość] w przestrzeni dyskryminatorów od punktu do centroidu klasy; - macierz kowariancji między dyskryminatorami , obserwowana w tej klasie.x S.dxS
Oblicz w ten sposób dla każdej z klas. dla punktu i klasy wyrażają dla nas poszukiwany . Ale z powyższą rezerwą, że PDF sam w sobie nie jest prawdopodobieństwem, tylko proporcjonalnym do niego, powinniśmy znormalizować , dzieląc przez sumę s we wszystkich klasach. Na przykład, jeśli w sumie są 3 klasy, , , , toP ( k ) ∗ P D F ( x | k ) x k P ( k ) ∗ P ( x | k ) P ( k ) ∗ P D F ( x | k ) P ( k ) ∗ P D F ( x | k ) kPDF(x|k)P(k)∗PDF(x|k)xkP(k)∗P(x|k)P(k)∗PDF(x|k)P(k)∗PDF(x|k)kmlm
P(k|x)=P(k)∗PDF(x|k)/[P(k)∗PDF(x|k)+P(l)∗PDF(x|l)+P(m)∗PDF(x|m)]
Punkt jest przypisany przez LDA do klasy, dla której jest najwyższy.P ( k | x )xP(k|x)
Uwaga. To było ogólne podejście. Wiele programów LDA domyślnie korzysta z puli macierzy wewnątrz klasy dla wszystkich klas we wzorze na PDF powyżej. Jeśli tak, to upraszcza wzór kolosalne Ponieważ takie w LDA macierz identyczności (patrz dolny przypis tutaj ), a więc i zamienia kwadrat odległości euklidesowej (Należy pamiętać zbiorcza ciągu klasie którym mówimy, to kowariancje między dyskryminatorami, - nie między zmiennymi wejściowymi, których macierz jest zwykle oznaczana jako ).S | S | = 1 d S S wSS|S|=1dSSw
Dodatek . Zanim powyższa zasada Bayesa została wprowadzona do LDA, Fisher, pionier LDA, zaproponował obliczenie tak zwanych teraz liniowych funkcji klasyfikacji Fishera w celu klasyfikacji punktów w LDA. Dla punktu wynikiem funkcji przynależności do klasy jest kombinacja liniowa , gdzie są zmiennymi predykcyjnymi w analizie.k b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n y t k V, 1 , V, 2 , . . . V pxkbkv1V1x+bkv2V2x+...+ConstkV1,V2,...Vp
Współczynnik , oznacza liczbę klas, a jest elementem zbiorczego rozproszenia wewnątrz klasy macierz zmiennych g s v w p Vbkv=(n−g)∑pwsvwV¯kwgsvwp V
Constk=log(P(k))−(∑pvbkvV¯kv)/2 .
Punkt zostaje przypisany do klasy, dla której jego wynik jest najwyższy. Wyniki klasyfikacji otrzymane tą metodą Fishera (która omija ekstrakcję dyskryminatorów zaangażowanych w złożoną składową eigend) są identyczne z wynikami uzyskanymi metodą Bayesa tylko wtedy, gdy pula wewnątrzklasowej macierzy kowariancji jest stosowana z metodą Bayesa opartą na dyskryminatorach (patrz „Uwaga” powyżej) i wszystkie dyskryminujące są stosowane w klasyfikacji. Metoda Bayesa jest bardziej ogólna, ponieważ pozwala również na stosowanie oddzielnych macierzy wewnątrz klasy.x