Redukcja wymiarów nie zawsze powoduje utratę informacji. W niektórych przypadkach możliwe jest ponowne przedstawienie danych w przestrzeniach o niższych wymiarach bez odrzucania jakichkolwiek informacji.
Załóżmy, że masz jakieś dane, w których każda zmierzona wartość jest powiązana z dwoma uporządkowanymi współzmiennych. Na przykład załóżmy, że zmierzona jakość sygnału (oznaczone przez kolor biały, czarny = dobra = zły) na gęstej siatce x i y pozycji w stosunku do niektórych emitera. W takim przypadku dane mogą wyglądać podobnie do wykresu po lewej stronie [* 1]:Qxy
Jest to, przynajmniej powierzchownie, dwuwymiarowy kawałek danych: . Możemy jednak poznać a priori (w oparciu o leżącą u podstaw fizykę) lub założyć, że zależy to tylko od odległości od źródła: r = √Q ( x , y) . (Niektóre analizy eksploracyjne mogą również doprowadzić do tego wniosku, jeśli nawet podstawowe zjawisko nie jest dobrze zrozumiane). Możemy wtedy przepisać nasze dane jakoQ(x2)+ y2)------√ zamiast Q ( x , y ) , co skutecznie zredukuje wymiarowość do jednego wymiaru. Oczywiście jest to bezstratne tylko wtedy, gdy dane są promieniowo symetryczne, ale jest to rozsądne założenie dla wielu zjawisk fizycznych.Q ( r )Q ( x , y)
Ta transformacja jest nieliniowa (jest pierwiastek kwadratowy i dwa kwadraty!), Więc nieco różni się od rodzaju redukcji wymiarów wykonywanej przez PCA, ale myślę, że to dobry przykład o tym, jak możesz czasami usunąć wymiar bez utraty jakichkolwiek informacji.Q ( x , y) → Q ( r )
Na przykład załóżmy, że dokonujesz dekompozycji pojedynczej wartości na niektórych danych (SVD jest bliskim kuzynem - i często leżącym u podstaw - analizą głównych składników). SVD zajmuje swoje dane macierzy i współczynniki na trzy macierze takie, że K = U S V , T . Kolumny z U i V są po lewej i prawej, odpowiednio, pojedyncze wektory, które tworzą zestaw ortonormalnych podstaw M . Ukośne elementy S (tj. S i , i ) są wartościami osobliwymi, które są efektywnie wagami na podstawie i zestawu zasad utworzonego przez odpowiednie kolumny U iM.M.= US.V.T.M.S.S.Ja , ja)jaU (reszta S to zera). Samo w sobie nie daje to żadnej redukcji wymiarów (w rzeczywistości istnieją teraz 3 N x M , więc można je upuścić. Załóżmy na przykład, że Q ( x , y )V.S. macierzy zamiast pojedynczejmacierzy N x N , od której zacząłeś). Czasami jednak niektóre ukośne elementy S są zerowe. Oznacza to, że odpowiednie bazy w U i V nie są potrzebne do rekonstrukcjiN.x N.N.x N.S.UV.M.Q ( x ,y)powyższa matryca zawiera 10 000 elementów (tj. 100 x 100). Kiedy wykonujemy na nim SVD, okazuje się, że tylko jedna para wektorów pojedynczych ma wartość niezerową [* 2], więc możemy ponownie przedstawić oryginalną macierz jako iloczyn dwóch 100 wektorów elementów (200 współczynników, ale możesz zrobić trochę lepiej [* 3]).
W przypadku niektórych aplikacji wiemy (lub przynajmniej zakładamy), że przydatne informacje są przechwytywane przez główne komponenty o wysokich wartościach pojedynczych (SVD) lub ładunkach (PCA). W takich przypadkach możemy odrzucić pojedyncze wektory / zasady / główne składniki o mniejszych obciążeniach, nawet jeśli nie są zerowe, na podstawie teorii, że zawierają one irytujący szum, a nie przydatny sygnał. Od czasu do czasu widziałem, jak ludzie odrzucają określone komponenty na podstawie ich kształtu (np. Przypomina znane źródło dodatkowego hałasu) niezależnie od obciążenia. Nie jestem pewien, czy uważasz to za utratę informacji, czy nie.
Istnieją pewne dobre wyniki dotyczące optymistycznej dla PCA teorii informacji. Jeśli twój sygnał jest gaussowski i jest zepsuty addytywnym szumem gaussowskim, to PCA może zmaksymalizować wzajemną informację między sygnałem a jego wersją o zmniejszonej wymiarowości (zakładając, że szum ma podobną do tożsamości strukturę kowariancji).
Przypisy:
- To tandetny i całkowicie niefizyczny model. Przepraszam!
- Z powodu niedokładności zmiennoprzecinkowej niektóre z tych wartości będą niezupełnie zerowe.
- Przy dalszej inspekcji, w tym konkretnym przypadku , dwa osobliwe wektory są takie same ORAZ symetryczne względem ich środka, więc moglibyśmy faktycznie przedstawić całą macierz z jedynie 50 współczynnikami. Zauważ, że pierwszy krok automatycznie wypada z procesu SVD; drugi wymaga pewnej kontroli / skoku wiary. (Jeśli chcesz o tym pomyśleć w kategoriach wyników PCA, macierz wyników to po prostu US. z pierwotnego rozkładu SVD; podobne argumenty o zerach, które w ogóle nie mają wpływu).