W jaki sposób LDA, technika klasyfikacji, służy również jako technika redukcji wymiarów, jak PCA

W tym artykule autor łączy liniową analizę dyskryminacyjną (LDA) z analizą głównych składników (PCA). Przy mojej ograniczonej wiedzy nie jestem w stanie śledzić, w jaki sposób LDA może być nieco podobny do PCA.

Zawsze uważałem, że LDA jest formą algorytmu klasyfikacji, podobną do regresji logistycznej. Będę wdzięczny za pomoc w zrozumieniu, w jaki sposób LDA jest podobny do PCA, tj. W jaki sposób jest to technika redukcji wymiarów.

— Zwycięzca
źródło

Nazywanie LDA tylko techniką klasyfikacji jest niewłaściwe. Jest to złożona, dwustopniowa technika: najpierw zmniejsz wymiary, a następnie sklasyfikuj. W przeciwieństwie do PCA nadzorowany jest jako redukcja wymiarów. Jako klasyfikacja bierze pod uwagę prawdopodobieństwo krańcowe, w przeciwieństwie do regresji logistycznej.

— ttnphns

Najwyraźniej używa się terminu „zmniejszenie wymiarów” w odniesieniu do metod uczenia się bez nadzoru, np. Analizy klastrów i redundancji. LDA jest ściśle nadzorowanym nauczaniem, więc stworzyłoby nadmierne uprzedzenie, gdyby można go było zastosować w pierwszym etapie redukcji danych.

— Frank Harrell,

Starsze bardzo podobne pytanie: stats.stackexchange.com/q/22884/3277 .

— ttnphns

Frank, różne strategie, na przykład wyboru funkcji, mogą być zastosowane na 1. etapie LDA (w tym podejście krokowe odrażające :-).

— ttnphns

Jak zauważyłem w komentarzu do twojego pytania, analiza dyskryminacyjna jest złożoną procedurą składającą się z dwóch odrębnych etapów - redukcji wymiarowości (nadzorowanej) i etapu klasyfikacji. Przy redukcji wymiarów wyodrębniamy funkcje dyskryminacyjne, które zastępują oryginalne zmienne objaśniające. Następnie klasyfikujemy (zwykle według podejścia Bayesa) obserwacje klas za pomocą tych funkcji.

Niektórzy ludzie nie rozpoznają tej wyraźnej dwustopniowej natury LDA tylko dlatego, że zapoznali się tylko z LDA z 2 klasami (zwanymi analizą dyskryminacyjną Fishera ). W takiej analizie istnieje tylko jedna funkcja dyskryminująca, a klasyfikacja jest prosta, więc wszystko można wyjaśnić w podręczniku w jednym „przejściu” bez zachęcania do koncepcji zmniejszania przestrzeni i klasyfikacji Bayesa.

LDA jest ściśle związana z MANOVA. Ta ostatnia jest „powierzchnią i szeroką” stroną (wielowymiarowego) modelu liniowego, podczas gdy jego „głębokim i zogniskowanym” obrazem jest kanoniczna analiza korelacji (CCA). Chodzi o to, że korelacja między dwoma wielowymiarowymi zestawami zmiennych nie jest jednowymiarowa i jest wyjaśniona kilkoma parami „ukrytych” zmiennych zwanych zmiennymi kanonicznymi.

Jako zmniejszenie wymiarów, LDA jest teoretycznie CCA z dwoma zestawami zmiennych, z których jeden jest skorelowanymi zmiennymi przedziałowymi „objaśniającymi”, a drugi zestaw jest zmiennymi obojętnymi (lub innymi kodowanymi kontrastowo) reprezentującymi grup, klas obserwacji. $k-1$ $k$

W CCA uważamy dwa skorelowane zestawy zmiennych X i Y za równe pod względem praw. Dlatego wyodrębniamy zmienne kanoniczne z obu stron i tworzą one pary: zmienna 1 z zestawu X i zmienna 1 z zestawu Y z kanoniczną korelacją między nimi maksymalną; następnie zmienimy 2 z zestawu X i zmienimy 2 z zestawu Y z mniejszą korelacją kanoniczną itp. W LDA zwykle nie interesują nas numerycznie warianty kanoniczne od strony zestawu klas; interesujemy się jednak zmiennymi kanonicznymi od strony zbioru wyjaśniającego. Są to tak zwane kanoniczne funkcje dyskryminujące lub dyskryminujące .

$p$ $k$ $min(k-1,p)$ i przy założenia LDA utrzymują, że ta liczba całkowicie rozróżnia klasy i jest w stanie w pełni sklasyfikować dane do klas (patrz ).

Powtarzając, w rzeczywistości ma to charakter CCA. LDA z klasami 3+ jest nawet nazywany „kanonicznym LDA”. Mimo że CCA i LDA są zazwyczaj wdrażane algorytmicznie nieco inaczej, z punktu widzenia wydajności programu są wystarczająco „takie same”, aby można było ponownie przeliczyć wyniki (współczynniki itp.) Uzyskane w jednej procedurze na uzyskane w drugiej. Większość specyfiki LDA leży w dziedzinie kodowania zmiennych jakościowych reprezentujących grupy. To ten sam dylemat, który obserwuje się w (M) ANOVA. Różne schematy kodowania prowadzą do różnych sposobów interpretacji współczynników.

Ponieważ LDA (jako zmniejszenie wymiarów) można rozumieć jako szczególny przypadek CCA, zdecydowanie musisz zbadać tę odpowiedź porównując CCA z PCA i regresją. Chodzi przede wszystkim o to, że CCA jest w pewnym sensie bliższa regresji niż PCA, ponieważ CCA jest techniką nadzorowaną (rysowana jest ukryta kombinacja liniowa w celu korelacji z czymś zewnętrznym), a PCA nie jest (rysowana jest ukryta kombinacja liniowa podsumowując wewnętrzny). Są to dwie gałęzie redukcji wymiarów.

Jeśli chodzi o matematykę, może się okazać, że chociaż wariancje głównych składników odpowiadają wartościom własnym chmury danych (macierz kowariancji między zmiennymi), wariancje czynników dyskryminujących nie są tak wyraźnie powiązane z tymi wartościami własnymi, które są wytwarzane w LDA Powodem jest to, że w LDA wartości własne nie podsumowują kształtu chmury danych; odnoszą się raczej do abstrakcyjnej wielkości stosunku międzyklasowego do wewnątrzklasowej zmienności w chmurze.

Zatem główne składniki maksymalizują wariancję, a czynniki dyskryminujące maksymalizują separację klas; prosty przypadek, w którym komputer nie rozróżnia wystarczająco dobrze klas, ale dyskryminujące mogą być te obrazy. Po narysowaniu jako linie w oryginalnej funkcji wyróżniki przestrzeni zwykle nie wydają się ortogonalne (mimo to są nieskorelowane), ale robią to komputery PC.

Przypis za drobiazgowy. Jak w ich wynikach LDA jest ściśle związane z CCA . Powtarzam: jeśli wykonasz LDA ze pzmiennymi i kklasami i wykonasz CCA z Set1 jako tymi pzmiennymi, a Set2 jako k-1zmienne wskaźnikowe zastępcze reprezentujące grupy (w rzeczywistości niekoniecznie zmienne wskaźnikowe - inne typy zmiennych kontrastowych, takie jak odchylenie lub Helmert - zrobią ), to wyniki są równoważne w odniesieniu do zmiennych kanonicznych wyodrębnionych dla Set1 - bezpośrednio odpowiadają funkcjom dyskryminacyjnym wyodrębnionym w LDA. Jaki jest jednak dokładny związek?

$j$ $j$

$\frac {\text {CCA standardized coefficient}}{\text {LDA raw coefficient}} = \frac {\text {CCA canonical variate value}}{\text {LDA discriminant value}} = \sqrt \frac {\text {pooled within class variance in the variate }}{\text {pooled within class variance in the discriminant}}$

n-1 $1$

\sqrt{pooled within class variance in the variate}

$\sqrt {\text {pooled within class variance in the variate}}$

st. deviation of the discriminant

$\text {st. deviation of the discriminant}$

σ

$\sigma$

Różnica między CCA i LDA wynika z tego, że LDA „wie”, że istnieją klasy (grupy): bezpośrednio wskazuje się grupy, aby obliczyć wewnątrz i między macierzami rozproszenia. To sprawia, że zarówno obliczenia są szybsze, jak i wyniki bardziej dogodne do późniejszej klasyfikacji według dyskryminujących. Z drugiej strony CCA nie zna klas i przetwarza dane tak, jakby wszystkie były zmiennymi ciągłymi - co jest bardziej ogólne, ale wolniejszy sposób obliczeń. Ale wyniki są równoważne i pokazałem, jak to zrobić.

Dotychczas sugerowano, że k-1manekiny są wprowadzane do CCA w typowy sposób, tj. Wyśrodkowane (jak zmienne z Set1). Można zapytać, czy można wejść do wszystkich kmanekinów i nie centrować ich (aby uniknąć osobliwości)? Tak, jest to możliwe, choć prawdopodobnie mniej wygodne. Pojawi się dodatkowa zmienna kanoniczna o wartości własnej zero, jej współczynniki należy wyrzucić. Inne wyniki pozostają ważne. Z wyjątkiem dfs do testowania znaczenia korelacji kanonicznych. Df dla 1. korelacji będzie p*kzłe, a prawdziwe df, jak w LDA, jest p*(k-1).

— ttnphns
źródło