Kiedy wybrać PCA vs. LSA / LSI

Pytanie:

Czy istnieją jakieś ogólne wytyczne dotyczące charakterystyki danych wejściowych, które można wykorzystać do podjęcia decyzji między zastosowaniem PCA a LSA / LSI?

Krótkie streszczenie PCA vs. LSA / LSI:

Zasada analizy składowej (PCA) i analizy utajonej semantycznej (LSA) lub utajonej indeksacji semantycznej (LSI) są podobne w tym sensie, że wszystkie z nich opierają się zasadniczo na zastosowaniu rozkładu macierzy liczby pojedynczej (SVD).

O ile mogę powiedzieć, LSA i LSI są tym samym. LSA nie różni się zasadniczo od PCA, ale pod względem sposobu, w jaki zapisy macierzy są wstępnie przetwarzane przed zastosowaniem SVD.

W LSA etap wstępnego przetwarzania zwykle obejmuje normalizację macierzy zliczeń, w której kolumny odpowiadają „dokumentom”, a wiersze odpowiadają określeniu pewnego rodzaju słowa. Wpisy mogą być traktowane jako pewnego rodzaju (znormalizowana) liczba wystąpień słów dla dokumentu.

W PCA etap wstępnego przetwarzania obejmuje obliczenie macierzy kowariancji z pierwotnej macierzy. Oryginalna matryca ma koncepcyjnie bardziej „ogólny” charakter niż w przypadku LSA. Jeśli chodzi o PCA, zwykle mówi się, że kolumny odnoszą się do ogólnych wektorów próbek, a rzędy odnoszą się do poszczególnych mierzonych zmiennych. Macierz kowariancji jest z definicji kwadratowa i symetryczna i w rzeczywistości nie jest konieczne stosowanie SVD, ponieważ macierz kowariancji można rozkładać poprzez diagonalizację. Warto zauważyć, że matryca PCA prawie na pewno będzie gęstsza niż wariant LSA / LSI - wpisy zerowe pojawią się tylko wtedy, gdy kowariancja między zmiennymi wynosi zero, czyli tam, gdzie zmienne są niezależne.

Wreszcie jeszcze jeden opisowy punkt, który dość często się rozróżnia, to ten

LSA szuka najlepszej podprzestrzeni liniowej w normie Frobeniusa, podczas gdy PCA dąży do najlepszej afinicznej podprzestrzeni.

W każdym razie różnice i podobieństwa tych technik były przedmiotem gorących dyskusji na różnych forach w Internecie, i oczywiście istnieją pewne istotne różnice, i wyraźnie te dwie techniki przyniosą różne wyniki.

Powtarzam zatem moje pytanie: Czy istnieją jakieś ogólne wytyczne dotyczące charakterystyki danych wejściowych, które można wykorzystać do podjęcia decyzji o zastosowaniu PCA w porównaniu z LSA / LSI? Jeśli mam coś przypominającego matrycę dokumentu-dokumentu, czy LSA / LSI zawsze będzie najlepszym wyborem? Czy można spodziewać się lepszych wyników w niektórych przypadkach, przygotowując matrycę termin / dokument dla LSA / LSI, a następnie stosując PCA do wyniku, zamiast bezpośrednio stosować SVD?

machine-learning pca lsa

— qi5d02lx
źródło

Twój opis LSA / LSI bardzo przypomina mi analizę korespondencji (CA) i podejrzewam, że skrót LSA oznacza CA w statystyce. CA i PCA są rzeczywiście bardzo ściśle powiązane.

— ttnphns

Hej, chciałem tylko wiedzieć, czy kiedykolwiek znalazłeś odpowiedź na to pytanie, mam dokładnie to samo pytanie.

— Pushpendre,

Co próbujesz zrobić? To może dać pojęcie, które z nich mogą być bardziej odpowiednie. Czy chcesz znaleźć wzorce tekstowe i korelacje semantyczne lub ukrytą niższą przestrzeń zarówno w odniesieniu do dokumentów, jak i terminów?

— ui_90jax,

Jedną z różnic, które zauważyłem, było to, że PCA może dać ci tylko podobieństwo terminu lub dokumentu i dokumentu (w zależności od sposobu pomnożenia macierzy korelacji lub ), ale SVD / LSA może dostarczyć oba, ponieważ masz wektory własne zarówno a . Właściwie nie widzę powodu, aby używać PCA w przeciwieństwie do SVD. $AA^*$ $A^*A$ $AA^*$ $A^*A$

— Pushpendre
źródło