Pozorna niezgodność źródeł w analizie liniowej, kwadratowej i dyskryminacyjnej Fishera

Studiuję analizę dyskryminacyjną, ale trudno mi pogodzić kilka różnych wyjaśnień. Wydaje mi się, że czegoś mi brakuje, ponieważ nigdy wcześniej nie spotkałem się z takim (pozornym) poziomem rozbieżności. Biorąc to pod uwagę, liczba pytań dotyczących analizy dyskryminacyjnej na tej stronie wydaje się świadczyć o jej złożoności.

LDA i QDA dla kilku klas

Moją główną książką jest Johnson & Wichern Applied Multivariate Statistics Analysis (AMSA) i notatki mojego nauczyciela oparte na tym. Zignoruję ustawienie dwóch grup, ponieważ uważam, że uproszczona formuła w tym ustawieniu powoduje przynajmniej pewne zamieszanie. Według tego źródła LDA i QDA są zdefiniowane jako parametryczne (przy założeniu normalności wielowymiarowej) rozszerzenie reguły klasyfikacji na podstawie oczekiwanego kosztu błędnej klasyfikacji (ECM). ECM sumuje ponad warunkowy oczekiwany koszt sklasyfikowania nowej obserwacji x do dowolnej grupy (uwzględniając koszty błędnej klasyfikacji i wcześniejsze prawdopodobieństwa) i wybieramy regiony klasyfikacji, które to minimalizują. gdzie

E C M = \sum_{i = 1}^{g r o u p s} p_{i} [\sum_{k = 1; i \neq k}^{g r o u p s} P (k | i) c (k | i)]

$ECM = \sum_{i=1}^{groups} p_i [\sum_{k=1;\space i \ne k}^{groups}P(k|i)c(k|i)]$

P (k | i) = P (classifying item as group k | item is group i) = \int_{R_{k}} f_{i} (x) d x

$P(k|i) = P(\text{classifying item as group k } | \text{ item is group i}) = \int_{R_k} f_i(\boldsymbol{x})d\boldsymbol{x}$ ,

f_{i} (x)

$f_i(\boldsymbol{x})$ to gęstość zaludnienia,

R_{k}

$R_k$ to zbiór obserwacji w grupie k,

c

$c$ to koszt, a

p_{i}

$p_i$ to wcześniejsze prawdopodobieństwa. Nowe obserwacje można następnie przypisać do grupy, dla której wewnętrzny element jest najmniejszy lub równorzędny, dla którego pominięta część pojęcia wewnętrznego

p_{k} f_{k} (x)

$p_k f_k(\boldsymbol{x})$ jest największa

Podobno ta reguła klasyfikacji jest równoważna z „tą, która maksymalizuje prawdopodobieństwa a posteriori” (sic AMSA), co mogę jedynie założyć o podejściu Bayesa, o którym wspominałem. Czy to jest poprawne? I czy ECM jest starszą metodą, ponieważ nigdy nie widziałem, aby występowała nigdzie indziej.

W przypadku normalnych populacji ta zasada upraszcza się do kwadratowego wyniku dyskryminującego: .

d_{i}^{Q} (x) = - \frac{1}{2} l o g (Σ_{i}) - \frac{1}{2} (x - μ_{i})^{T} Σ_{i}^{- 1} (x - μ_{i}) + l o g (p_{i})

$d_i^Q(\boldsymbol{x}) = -\frac{1}{2} log(\boldsymbol{\Sigma_i}) -\frac{1}{2} (\boldsymbol{x - \mu_i})^T \boldsymbol{\Sigma}_i^{-1}(\boldsymbol{x - \mu_i}) + log(p_i)$

Wydaje się to równoważne formule 4.12 Statystycznego uczenia się (ESL) na stronie 110, chociaż opisują ją raczej jako kwadratową funkcję dyskryminacyjną niż wynik . Co więcej, przybywają tutaj poprzez logarytmiczny stosunek wielowymiarowych gęstości (4.9). Czy to kolejna nazwa podejścia Bayesa?

Kiedy zakładamy równą kowariancję, formuła upraszcza jeszcze bardziej wynik liniowej dyskryminacji .

d_{i} (x) = μ_{i}^{T} Σ^{- 1} x - \frac{1}{2} μ_{i}^{T} Σ^{- 1} μ_{i} + l o g (p_{i})

$d_i(\boldsymbol{x}) = \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1}\boldsymbol{x} -\frac{1}{2} \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu_i} + log(p_i)$

Ta formuła różni się od ESL (4.10), gdzie pierwszy termin jest odwrócony: . Wersja ESL jest również wymieniony w Statistical Learning w R . Ponadto w danych wyjściowych SAS przedstawionych w AMSA opisano liniową funkcję dyskryminacyjną składającą się ze stałej i współczynnik wektor , pozornie zgodny z wersją ESL. $x^T \boldsymbol{\Sigma}^{-1}\mu_k$ $0.5 \bar{X}_j^T COV^{-1}\bar{X}_j + ln \text{ prior}_j$ $COV^{-1}\bar{X}_j$

Co może być przyczyną tej rozbieżności?

Dyskryminatory i metoda Fishera

Uwaga: jeśli to pytanie zostanie uznane za zbyt duże, usunę tę sekcję i otworzę nowe pytanie, ale opiera się ono na poprzedniej sekcji. Przepraszam za ścianę tekstu, niezależnie od tego, starałem się jakoś ją trochę ustrukturyzować, ale jestem pewien, że moje zamieszanie związane z tą metodą doprowadziło do dość dziwnych skoków logiki.

Książka AMSA opisuje dalej metodę Fishera, również dla kilku grup. Jednak ttnphns wskazał kilka razy , że FDA jest po prostu LDA z dwóch grup. Czym jest ta wielopłaszczyznowa FDA? Być może FDA może mieć wiele znaczeń?

AMSA opisuje dyskryminatorów Fishera jako wektory własne które maksymalizują stosunek . Kombinacje liniowe są wówczas przykładowymi dyskryminatorami (których jest ). Do klasyfikacji wybieramy grupę k o najmniejszej wartości dla gdzie r to liczba czynników dyskryminujących, których chcielibyśmy użyć. Jeśli użyjemy wszystkich dyskryminatorów, reguła ta byłaby równoważna liniowej funkcji dyskryminacyjnej. $\boldsymbol{W^{-1}B}$ $\boldsymbol{\frac{\hat{a}^TB\hat{a}}{\hat{a}^TW\hat{a}}}$ $\boldsymbol{\hat{e}_ix}$ $min(g-1, p)$ $\sum_{j=1}^{r}[\boldsymbol{\hat{e}_j^T}(\boldsymbol{x}-\boldsymbol{\bar{x}}_k)]^2$

Wiele wyjaśnień dotyczących LDA wydaje się opisywać metodologię zwaną FDA w książce AMSA, tj. Zaczynając od tego aspektu pomiędzy / w obrębie zmienności. Co zatem oznacza FDA, jeśli nie rozkład macierzy BW?

Po raz pierwszy w książce wspomniano o aspekcie redukcji wymiarów analizy dyskryminacyjnej, podczas gdy kilka odpowiedzi na tej stronie podkreśla dwustopniowy charakter tej techniki, ale nie jest to jasne w przypadku dwóch grup, ponieważ jest tylko 1 dyskryminujący. Biorąc pod uwagę powyższą formułę dla wieloklasowych LDA i QDA, nadal nie jest dla mnie jasne, gdzie pojawiają się dyskryminatorzy.

Ten komentarz szczególnie wprawił mnie w zakłopotanie, zauważając, że klasyfikacja Bayesa może być zasadniczo wykonana na zmiennych pierwotnych. Ale jeśli FDA i LDA są matematycznie równoważne, jak wskazano w książce i tutaj , to czy redukcja wymiarów nie powinna być nieodłączną funkcją funkcji ? Sądzę, że właśnie do tego odnosi się ten ostatni link, ale nie jestem do końca pewien. $d_i$

Notatki z kursu mojego nauczyciela wyjaśniają, że FDA jest zasadniczo formą kanonicznej analizy korelacji. Znalazłem tylko 1 inne źródło, które mówi o tym aspekcie, ale znów wydaje się, że jest ściśle związane z podejściem Fishera polegającym na rozkładaniu zmienności między i wewnątrz. SAS przedstawia wynik w procedurze LDA / QDA (DISCRIM), który najwyraźniej jest powiązany z metodą Fishera ( https://stats.stackexchange.com/a/105116/62518 ). Jednak opcja FDA SAS (CANDISC) zasadniczo dokonuje korelacji kanonicznej, nie przedstawiając tak zwanych współczynników klasyfikacji Fishera. Przedstawia surowe współczynniki kanoniczne, które moim zdaniem są równoważne wektorom własnym W-1B R uzyskanym przez lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Współczynniki klasyfikacji wydają się być uzyskane z funkcji dyskryminacyjnej, którą opisałem w mojej sekcji LDA i QDA (ponieważ na populację przypada 1 funkcja i wybieramy największą).

Byłbym wdzięczny za wszelkie wyjaśnienia lub odniesienia do źródeł, które mogłyby pomóc mi zobaczyć las przez drzewa. Główną przyczyną mojego pomieszania wydaje się to, że różne podręczniki nazywają metody różnymi nazwami lub przedstawiają niewielką zmienność matematyki, nie uznając innych możliwości, chociaż sądzę, że nie powinno to dziwić, biorąc pod uwagę wiek książki AMSA .

multivariate-analysis discriminant-analysis

— Zenit
źródło

If we use all the discriminants this rule would be equivalent to the linear discriminant functionNiejasny. „Dyskryminacja” i „funkcja dyskryminacji” są synonimami. Możesz użyć wszystkich dyskryminujących lub tylko kilku najsilniejszych / znaczących z nich. Nie sięgnąłem po książkę AMSA, ale podejrzewam, że dla autorów FDA = LDA. Właściwie osobiście uważam, że „Fisher LDA” byłby nadwyżką, niepotrzebnym terminem.

— ttnphns

W „Dodatku” do tej odpowiedzi na temat klasyfikacji LDA zauważam, że obliczenie „funkcji klasyfikacji liniowej Fishera” bezpośrednio ze zmiennych jest równoważne z tym, Extract the discriminants -> classify by them all (using Bayes approach, as usual)gdy, jak zwykle domyślnie, w klasyfikacji stosuje się pulę wewnątrzklasowej macierzy kowariancji czynników dyskryminujących.

— ttnphns

W rzeczywistości, „liniowe funkcje klasyfikacji Fishera” są sposobem na wykonanie LDA bez tworzenia złożonego, W^-1Ba następnie wykonywania „Bayesa”. Jest to równoważne, ale jest mniej elastyczne (nie można wybrać tylko kilku dyskryminatorów, nie można używać oddzielnych macierzy kowariancji przy klasyfikacji itp.).

— ttnphns

Nadal analizuję twoją odpowiedź i linki (dziękuję), ale: 1) Oto fragment AMSA wyjaśniający „dyskryminujące” i „dyskryminujące wyniki” i.imgur.com/7W7vc8u.jpg?1 Użyłem terminów „wynik” i „funkcja” zamiennie. 3) W tym samym fragmencie widać, że książka AMSA odwołuje się do składowej eigend jako sposobu uzyskania dyskryminujących Fishera. Sposób, w jaki jest tu prezentowany, metoda Fishera wydaje się bardziej elastyczna niż metoda liniowa / kwadratowa, co skutkuje jedynie jedną twardą funkcją / wynikiem dyskryminacyjnym.

W^{- 1} B

$\boldsymbol{W^{-1}B}$

— Zenit

Dla mnie Zenit, wynik dyskryminacyjny to wartość (kanonicznej) funkcji dyskryminacyjnej. Nie mogę posunąć się tak daleko, aby porównać cytowane przez ciebie formuły z tym, co wiem o tym, jak obliczane są kanoniczne dyskryminatory w SPSS . Sugeruję, abyś przeprowadził obliczenia i porównał wyniki oraz przedstawił swoje wnioski. Podejrzewam też, że różne teksty mogą inaczej oznaczać etykietę „Fisher”.

— ttnphns

Odnoszę się tylko do jednego aspektu pytania i robię to intuicyjnie bez algebry.

Jeśli klasy mają te same macierze wariancji-kowariancji i różnią się jedynie przesunięciem ich centroidów w przestrzeni wymiarowej, wówczas są one całkowicie liniowo rozdzielalne w „podprzestrzeni” . To właśnie robi LDA. Wyobraź sobie, że masz trzy identyczne elipsoidy w przestrzeni zmiennych . Musisz wykorzystać informacje ze wszystkich zmiennych, aby bezbłędnie przewidzieć członkostwo w klasie. Ale z uwagi na fakt, że były to chmury o identycznych rozmiarach i orientacji, można je przeskalować za pomocą wspólnej transformacji w kule o promieniu jednostkowym. Następnie $g$ $p$ $q=min(g-1,p)$ $V_1, V_2, V_3$ $q=g-1=2$ niezależne wymiary będą wystarczające, aby przewidzieć członkostwo w klasie tak dokładnie jak wcześniej. Wymiary te nazywane są funkcjami dyskryminacyjnymi . Mając 3 kulek tej samej wielkości, potrzebujesz tylko 2 linii osiowych i aby poznać współrzędne centrów kulek, aby poprawnie przypisać każdy punkt. $D_1, D_2$

Dyskryminatory to zmienne nieskorelowane, ich macierze kowariancji wewnątrz klasy są idealnie identyczne (kule). Dyskryminatory tworzą podprzestrzeń pierwotnej przestrzeni zmiennych - są to ich kombinacje liniowe. Nie są to jednak osie zbliżone do obrotu (podobne do PCA): widziane w przestrzeni pierwotnych zmiennych, dyskryminatory jako osie nie są wzajemnie ortogonalne .

Tak więc, przy założeniu jednorodności wewnątrzklasowych wariancji-kowariancji wariancji LDA przy zastosowaniu do klasyfikacji wszystkie istniejące dyskryminatory nie są gorsze niż natychmiastowa klasyfikacja według zmiennych pierwotnych. Ale nie musisz używać wszystkich dyskryminujących. Możesz użyć tylko pierwszego najsilniejszego / statystycznie istotnego z nich. W ten sposób tracisz minimalną ilość informacji potrzebnych do sklasyfikowania, a błędna klasyfikacja będzie minimalna. Patrząc z tej perspektywy, LDA jest redukcją danych podobną do PCA, tylko nadzorowaną. $m<q$

Zauważ, że przy założeniu jednorodności (+ normalność wielowymiarowa) i pod warunkiem, że planujesz używać, ale wszystkie dyskryminujące czynniki w klasyfikacji, można ominąć ekstrakcję samych dyskryminujących - co wiąże się z uogólnionym problemem własnym - i obliczyć tak zwane „funkcje klasyfikacyjne Fishera” bezpośrednio z zmiennych, w celu sklasyfikowania z nich , przy takich samych wyników. Tak więc, gdy klasy mają identyczny kształt, moglibyśmy uznać zmienne wejściowe lub funkcje Fishera lub dyskryminatorów jako wszystkie równoważne zestawy „klasyfikatorów”. Ale osoby dyskryminujące są pod wieloma względami wygodniejsze. $g$ $p$ $g$ $q$ $^1$

Ponieważ zazwyczaj klasy nie są w rzeczywistości „identycznymi elipsami”, klasyfikacja według dyskryminujących jest nieco gorsza niż w przypadku klasyfikacji Bayesa według wszystkich oryginalnych zmiennych . Na przykład na tym wykresie dwie elipsoidy nie są do siebie równoległe; i można pojąć wizualnie, że pojedynczy istniejący czynnik dyskryminujący nie wystarczy, aby klasyfikować punkty tak dokładnie, jak pozwalają na to dwie zmienne. QDA (kwadratowa analiza dyskryminacyjna) byłaby wówczas o krok lepszym przybliżeniem niż LDA. Praktyczne podejście w połowie drogi pomiędzy LDA i QDA jest użycie LDA wyróżniki ale użyć na obserwowane, ich macierze kowariancji oddzielne klasy w klasyfikacji ( patrz , patrz $q$ $p$ ) zamiast ich puli macierzy (która jest tożsamością).

(I tak, LDA można postrzegać jako ściśle związane, nawet z konkretnym przypadkiem analizy MANOVA i analizy kanonicznej lub regresji wielowymiarowej regresji o zmniejszonym stopniu - patrz , patrz , patrz .)

$^1$ Ważna uwaga terminologiczna. W niektórych tekstach funkcje klasyfikacyjne Fishera można nazwać „funkcjami dyskryminacyjnymi Fishera”, co może mylić z dyskryminacjami, które są kanonicznymi funkcjami dyskryminacyjnymi (tj. Uzyskanymi w składzie kluczowym $g$ $q$ $\bf W^{-1}B$ ). Dla jasności polecam powiedzieć „funkcje klasyfikacyjne Fishera” a „kanoniczne funkcje dyskryminacyjne” (w skrócie = dyskryminujące). W nowoczesnym rozumieniu LDA jest kanoniczną liniową analizą dyskryminacyjną. „Analiza dyskryminacyjna Fishera” to, przynajmniej według mojej świadomości, albo LDA z 2 klasami (gdzie pojedynczy kanoniczny dyskryminator jest nieuchronnie tym samym, co funkcje klasyfikacyjne Fishera) lub, ogólnie, obliczenie funkcji klasyfikacyjnych Fishera w ustawieniach wieloklasowych.

— ttnphns
źródło

Terminologia: artykuł z Wikipedii na temat LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) stwierdza, że „Terminy liniowy dyskryminator Fishera i LDA są często używane zamiennie, chociaż oryginalny artykuł Fishera [1] faktycznie opisuje nieco inną dyskryminację, która nie przyjmować niektórych założeń LDA, takich jak zwykle rozkład klas lub kowariancje równych klas ”. Na tej podstawie LDA dla 2 klas wydaje się być szczególnym przypadkiem „FDA”, jeśli kowariancje grupowe są „takie same”. @ttnphns: czy to prawda?

— Laryx Decidua

@LaryxDecidua, nie jestem w 100% pewien terminologii w tym przypadku i widziałem różne opinie. W ogóle nie używam terminu „DA Fishera”. Ale kiedy ludzie pytają, odpowiadam w myślach: „FDA to LDA z 2 klasami”.

— ttnphns

Dzięki mnie najciekawszym aspektem jest to, że „FDA” według Wikipedii nie zakłada normalności, podczas gdy „LDA” (i QDA) tak. Być może „FDA to LDA z 2 klasami, nie zakładając normalności ani homoscedastyczności”.

— Laryx Decidua