Jak obliczyć wagi kryterium Fishera?

Studiuję rozpoznawanie wzorców i uczenie maszynowe i natrafiłem na następujące pytanie.

Rozważ problem z klasyfikacją dwóch klas z jednakowym prawdopodobieństwem wcześniejszej klasy
$P (D_{1}) = P (D_{2}) = \frac{1}{2}$ $P(D_1)=P(D_2)= \frac{1}{2}$
oraz rozkład instancji w każdej klasie podany przez

$p (x | D_{1}) = N ([\begin{matrix} 0 \\ 0 \end{matrix}], [\begin{matrix} 2 & 0 \\ 0 & 1 \end{matrix}]),$ $p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right),$
$p (x | D_{2}) = N ([\begin{matrix} 4 \\ 4 \end{matrix}], [\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}]) .$ $p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 \\ 4 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \right).$
Jak obliczyć wagi kryterium Fishera?

Aktualizacja 2: Obliczona waga dostarczona przez moją książkę to: . $W=\begin{bmatrix} \frac{-4}{3} \\ \frac{-2}{9} \end{bmatrix}$

Aktualizacja 3: Jak sugeruje @xeon, rozumiem, że powinienem ustalić linię projekcji dla dyskryminatora Fishera.

Aktualizacja 4: Niech będzie kierunkiem linii rzutowania, następnie liniowa metoda dyskryminacji Fishera stwierdza, że najlepsze to takie, dla którego funkcja kryterium jest zmaksymalizowana. Pozostałe wyzwanie polega na tym, jak uzyskać liczbowo wektor ? $W$ $W$ $W$

— Dr Hoshang
źródło

Twoja pierwsza dystrybucja jest niezdefiniowana. W szczególności drugi wariant pary ma rozkład zdegenerowany z wariancją 0, ale ma dodatnią kowariancję z pierwszą zmienną, co jest niemożliwe.

— owensmartin

@ owensmartin czy masz pojęcie, jak te wartości są obliczane?

— Dr Hoshang

Jaka jest definicja wagi kryterium Fishera?

— Vladislavs Dovgalecs

Mam na myśli to, że liniowy dyskryminator Fishera jest podawany przez wektor w, który maksymalizuje ... jest odnotowany na każdym materiale, takim jak luthuli.cs.uiuc.edu/~daf/courses/Learning/Kernelpapers/... na str. 2. czy jest w porządku @xeon?

— Dr Hoshang

Wskazówka: jaka będzie granica między dwiema klasami? Liniowy, wielomianowy, coś jeszcze?

— Vladislavs Dovgalecs

Odpowiedzi:

Zgodnie z dokumentem, do którego linkujesz (Mika i in., 1999) , musimy znaleźć które maksymalizuje tak zwany uogólniony iloraz Rayleigha , $\mathbf{w}$

\frac{w^{⊤} {S.}_{b} w}{w^{⊤} {S.}_{W.} w},

$\frac{\mathbf{w}^\top \mathbf{S}_B \mathbf{w}}{\mathbf{w}^\top \mathbf{S}_W \mathbf{w}},$

gdzie dla średnich i kowariancji , $\mathbf{m}_1, \mathbf{m}_2$ $\mathbf{C}_1, \mathbf{C}_2$

\begin{aligned} {S.}_{b} & = (m_{1} - m_{2)}) (m_{1} - m_{2)})^{⊤}, & {S.}_{W.} & = {do}_{1} + {do}_{2)} . \end{aligned}

$\begin{align} \mathbf{S}_B &= (\mathbf{m}_1 - \mathbf{m}_2)(\mathbf{m}_1 - \mathbf{m}_2)^\top, & \mathbf{S}_W &= \mathbf{C}_1 + \mathbf{C}_2. \end{align}$

\begin{aligned} {S.}_{b} w = λ {S.}_{W.} w, \end{aligned}

$\begin{align} \mathbf{S}_B\mathbf{w} = \lambda \mathbf{S}_W\mathbf{w}, \end{align}$

λ

$\lambda$

\begin{aligned} det ({S.}_{b} - λ {S.}_{W.}) = 0 \end{aligned}

$\begin{align} \det(\mathbf{S}_B - \lambda \mathbf{S}_W) = 0 \end{align}$

w

$\mathbf{w}$

{S.}_{b} - λ {S.}_{W.} = (\begin{matrix} 16 - 3) λ & 16 \\ 16 & 16 - 2) λ \end{matrix}) .

$\mathbf{S}_B - \lambda \mathbf{S}_W = \begin{pmatrix}16 - 3\lambda & 16 \\ 16 & 16 - 2\lambda\end{pmatrix}.$

Wektor własny o największej wartości własnej maksymalizuje iloraz Rayleigha. Zamiast wykonywać obliczenia ręcznie, rozwiązałem uogólniony problem wartości własnych w Pythonie za pomocą scipy.linalg.eigi otrzymałem co różni się od rozwiązania znalezionego w książce. Poniżej nakreśliłem optymalną hiperpłaszczyznę znalezionego wektora ciężaru (czarny) i hyerplane wektora ciężaru znalezionego w książce (czerwony).

w_{1} \approx 0,5547, w_{2)} \approx 0,8321,

$w_1 \approx 0.5547, w_2 \approx 0.8321,$

$\hskip1in$ wprowadź opis zdjęcia tutaj

— Lucas
źródło

Ten przykład jest bardzo interesujący. Obie linie oddzielają dwie klasy, ale jedna z nich jest „lepsza” z punktu widzenia teorii uczenia się.

— Vladislavs Dovgalecs,

Kryterium Fishera opisano szczegółowo w sekcji 5-2-3 na books.google.com/…

— nini

@Lucas może wynik jest bliski komentarzom Xeona: „Być może powinniśmy zgłosić wektor jednostkowy w, ponieważ hiperpłaszczyzna jest określona przez kierunek, a nie przez wielkość”. Prawda?

— nini

Och !!! trudne pytanie, polecam wszystkim, aby zobaczyć stronę 2 na dml.ir/wp-content/uploads/2012/04/SPR-S12-M-Sol.pdf

— użytkownik153695

@Lucas Thanks. czy mógłbyś dodać kolejne zdjęcie dla W = [- 2/3 -2/3] i W = [- 4/3 -2/3] i W = [- 2-3] w trzech różnych kolorach, aby zobaczyć granicę? Dzięki. Dałem ci nagrodę za miłą odpowiedź.

— nini

$\mathbf{SOLUTION 1:}$

W ślad za Dudą i in. (Pattern CLassification), który ma alternatywne rozwiązanie dla @lucas iw tym przypadku daje bardzo łatwe do obliczenia rozwiązanie ręcznie. (Mam nadzieję, że to alternatywne rozwiązanie pomaga !! :))

W dwóch klasach LDA celem jest:

$\frac{w^TS_Bw}{w^TS_Ww}$ co oznacza po prostu, że zwiększa wariancję między klasami i zmniejsza wariancję wewnątrz klasy.

gdzie i , tutaj są macierzą kowariancji, a są odpowiednio klasami 1 i 2. $S_B = (m_1-m_2)(m_1-m_2)^T$ $S_W = S_1 + S_2$ $S_1,S_2$ $m_1,m_2$

Rozwiązaniem tego uogólnionego ilorazu Raleigha jest uogólniony sonda wartości własnej.

$S_Bw = \lambda S_Ww \rightarrow {S_W}^{-1}S_Bw = \lambda w$

Powyższy preparat ma postać zamkniętą. jest macierzą rangi 1 na podstawie więc którą można normować, aby uzyskać odpowiedź. $S_B$ $m_1-m_2$ $w \propto {S_W}^{-1}(m1-m2)$

Właśnie obliczyłem i otrzymałem [0,5547; 0,8321]. $w$

${S_W}^{-1}(m1-m2) = {(S_1 + S_2)}^{-1}(m1 - m2) = {(\begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} + \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix})}^{-1}(\begin{bmatrix} 0 \\ 0 \end{bmatrix} - \begin{bmatrix} 4 \\ 4 \end{bmatrix} ) ={(\begin{bmatrix} 1/3 & 0 \\ 0 & 1/2 \end{bmatrix})}(\begin{bmatrix} 0 \\ 0 \end{bmatrix} - \begin{bmatrix} 4 \\ 4 \end{bmatrix} ) = \begin{bmatrix} -1.3333 \\ -2.0000 \end{bmatrix} \propto \begin{bmatrix} 0.5547 \\ 0.8321 \end{bmatrix}$

Patrz: Klasyfikacja wzorów według Dudy, Hart, Stork

$\mathbf{SOLUTION 2:}$

Alternatywnie można to rozwiązać, znajdując wektor własny w uogólnionym problemie wartości własnej. $S_Bw = \lambda S_Ww$

Wielomian w lambda można utworzyć za pomocą a rozwiązaniem tego wielomianu będzie wartość własna dla . Powiedzmy teraz, że masz zestaw wartości własnych jako pierwiastki wielomianu. Teraz podstaw i uzyskaj odpowiedni wektor własny jako rozwiązanie układu liniowego równań . Robiąc to dla każdego i, możesz uzyskać zestaw wektorów i jest to zestaw wektorów własnych jako rozwiązań. $determinant(S_B - \lambda S_W)$ $S_Bw = \lambda S_Ww$ $\lambda_1,\lambda_2, ..., \lambda_n,$ $\lambda = \lambda_i, i \in \{1,2,..,n\}$ $S_Bw_i = \lambda_i S_Ww_i$ $\{w_i\}_{i=1}^{n}$

$determinant(S_B - \lambda S_W) = \begin{bmatrix} 16 - 3\lambda & 16 \\ 16 & 16 - 2\lambda \end{bmatrix} =6\lambda^2 - 80\lambda$ , więc wartości własne są pierwiastki wielomianowe . $6\lambda^2 - 80\lambda$

Zatem 0 i 40/3 to dwa rozwiązania. Dla LDA rozwiązaniem jest wektor własny odpowiadający najwyższej wartości własnej. $\lambda=$

Rozwiązanie układu równań i $(S_B - \lambda_i S_W)w_i = 0$ $\lambda_i = 40/3$

który okazuje się być $\begin{bmatrix} 16 - 3\lambda & 16 \\ 16 & 16 - 2\lambda \end{bmatrix}w_i \propto \begin{bmatrix} -72 & 48 \\ 48 & -32 \end{bmatrix}w_i = 0$

Rozwiązaniem powyższego układu równań jest który jest taki sam jak poprzednie rozwiązanie. $\begin{bmatrix} -0.5547 \\ -0.8321 \end{bmatrix} \propto \begin{bmatrix} 0.5547 \\ 0.8321 \end{bmatrix}$

Alternatywnie możemy powiedzieć, że leży w pustej przestrzeni . $\begin{bmatrix} 0.5547 \\ 0.8321 \end{bmatrix}$ $\begin{bmatrix} -72 & 48 \\ 48 & -32 \end{bmatrix}$

W przypadku dwóch klas LDA rozwiązaniem jest wektor własny o najwyższej wartości własnej. Ogólnie rzecz biorąc, dla LDA klasy C rozwiązanie stanowią pierwsze wektory własne C - 1 o najwyższych wartościach własnych C - 1.

W tym filmie wyjaśniono, jak obliczać wektory własne dla prostego problemu z wartością własną. ( https://www.khanacademy.org/math/linear-algebra/alternate_bases/eigen_everything/v/linear-algebra-finding-eigenvectors-and-eigenspaces-example )

Oto przykład. http://www.sosmath.com/matrix/eigen2/eigen2.html

Wieloklasowy LDA: http://en.wikipedia.org/wiki/Linear_discriminant_analysis#Multiclass_LDA

Obliczanie pustej przestrzeni macierzy: https://www.khanacademy.org/math/linear-algebra/vectors_and_spaces/null_column_space/v/null-space-2-calcul-the-null-space-of-a-matrix

— dksahuji
źródło

Dobra odpowiedź, oznacza to, że odpowiedź książki jest błędna !! Okej

— Dr Hoshang

Uważam, że ta odpowiedź jest poprawna i jeśli twoja książka definiuje i zobacz, co otrzymujesz dzięki tym definicjom.

S_{W}

$S_W$

S_{B}

$S_B$

— dksahuji,

-1.33 jest równe -4/3, ale drugi element jest inny. Może wektor w raporcie książki? Nie ma racji?

— Wielkie

wypełnij rozwiązanie 2, aby osiągnąć wartość W, aby je zdobyć

— nini

@ Dr.Hoshang: Rozwiązanie w twojej książce jest złe. Nie mam pojęcia dlaczego.

— ameba mówi Przywróć Monikę