Jakie jest znaczenie wektorów własnych wzajemnej matrycy informacji?


14

Patrząc na wektory własne macierzy kowariancji, otrzymujemy kierunki maksymalnej wariancji (pierwszy wektor własny to kierunek, w którym dane najbardziej się różnią itp.); nazywa się to analizą głównych składników (PCA).

Zastanawiałem się, co to znaczy spojrzeć na wektory własne / wartości matrycy wzajemnej informacji, czy wskazywałyby one w kierunku maksymalnej entropii?


4
Nie wiem, ale właśnie dowiedziałem się, że wzajemne macierze informacji nie zawsze są półprawidłowe : arxiv.org/abs/1307.6673 .
ameba mówi Przywróć Monikę

3
Przypomina coś, nad czym pracowaliśmy: people.eng.unimelb.edu.au/baileyj/papers/frp0038-Vinh.pdf
Simone

Odpowiedzi:


3

Chociaż nie jest to bezpośrednia odpowiedź (ponieważ dotyczy punktowej wzajemnej informacji), spójrz na artykuł odnoszący się do word2vec do pojedynczej dekompozycji wartości macierzy PMI:

Analizujemy skip-gram z ujemnym próbkowaniem (SGNS), metodą osadzania słów wprowadzoną przez Mikolova i wsp., I wykazujemy, że pośrednio rozkłada on matrycę kontekstu słów, których komórki są punktową wzajemną informacją (PMI) odpowiednich pary słów i kontekstu, przesunięte o stałą globalną. Okazuje się, że inna metoda osadzania, NCE, domyślnie rozkłada na czynniki podobną macierz, gdzie każda komórka jest (przesuniętym) logicznym prawdopodobieństwem warunkowym słowa, biorąc pod uwagę jego kontekst. Pokazujemy, że użycie rzadkiej macierzy kontekstu słów z przesuniętym pozytywnym PMI do reprezentowania słów poprawia wyniki w dwóch zadaniach podobieństwa słów i jednym z dwóch zadań analogii. Gdy preferowane są gęste wektory o małych wymiarach, dokładna faktoryzacja za pomocą SVD może zapewnić rozwiązania, które są co najmniej tak dobre, jak rozwiązania SGNS do zadań podobieństwa słów. W kwestii analogii SGNS pozostaje lepszy od SVD. Przypuszczamy, że wynika to z ważonej natury faktoryzacji SGNS.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.