Pytanie:
Czy istnieją jakieś ogólne wytyczne dotyczące charakterystyki danych wejściowych, które można wykorzystać do podjęcia decyzji między zastosowaniem PCA a LSA / LSI?
Krótkie streszczenie PCA vs. LSA / LSI:
Zasada analizy składowej (PCA) i analizy utajonej semantycznej (LSA) lub utajonej indeksacji semantycznej (LSI) są podobne w tym sensie, że wszystkie z nich opierają się zasadniczo na zastosowaniu rozkładu macierzy liczby pojedynczej (SVD).
O ile mogę powiedzieć, LSA i LSI są tym samym. LSA nie różni się zasadniczo od PCA, ale pod względem sposobu, w jaki zapisy macierzy są wstępnie przetwarzane przed zastosowaniem SVD.
W LSA etap wstępnego przetwarzania zwykle obejmuje normalizację macierzy zliczeń, w której kolumny odpowiadają „dokumentom”, a wiersze odpowiadają określeniu pewnego rodzaju słowa. Wpisy mogą być traktowane jako pewnego rodzaju (znormalizowana) liczba wystąpień słów dla dokumentu.
W PCA etap wstępnego przetwarzania obejmuje obliczenie macierzy kowariancji z pierwotnej macierzy. Oryginalna matryca ma koncepcyjnie bardziej „ogólny” charakter niż w przypadku LSA. Jeśli chodzi o PCA, zwykle mówi się, że kolumny odnoszą się do ogólnych wektorów próbek, a rzędy odnoszą się do poszczególnych mierzonych zmiennych. Macierz kowariancji jest z definicji kwadratowa i symetryczna i w rzeczywistości nie jest konieczne stosowanie SVD, ponieważ macierz kowariancji można rozkładać poprzez diagonalizację. Warto zauważyć, że matryca PCA prawie na pewno będzie gęstsza niż wariant LSA / LSI - wpisy zerowe pojawią się tylko wtedy, gdy kowariancja między zmiennymi wynosi zero, czyli tam, gdzie zmienne są niezależne.
Wreszcie jeszcze jeden opisowy punkt, który dość często się rozróżnia, to ten
LSA szuka najlepszej podprzestrzeni liniowej w normie Frobeniusa, podczas gdy PCA dąży do najlepszej afinicznej podprzestrzeni.
W każdym razie różnice i podobieństwa tych technik były przedmiotem gorących dyskusji na różnych forach w Internecie, i oczywiście istnieją pewne istotne różnice, i wyraźnie te dwie techniki przyniosą różne wyniki.
Powtarzam zatem moje pytanie: Czy istnieją jakieś ogólne wytyczne dotyczące charakterystyki danych wejściowych, które można wykorzystać do podjęcia decyzji o zastosowaniu PCA w porównaniu z LSA / LSI? Jeśli mam coś przypominającego matrycę dokumentu-dokumentu, czy LSA / LSI zawsze będzie najlepszym wyborem? Czy można spodziewać się lepszych wyników w niektórych przypadkach, przygotowując matrycę termin / dokument dla LSA / LSI, a następnie stosując PCA do wyniku, zamiast bezpośrednio stosować SVD?