Co należy rozumieć przez zachowanie przez PCA jedynie dużych par odległości?

Obecnie czytam technikę wizualizacji t-SNE i wspomniano, że jedną z wad stosowania analizy głównych składników (PCA) do wizualizacji danych wielowymiarowych jest to, że zachowuje ona jedynie duże parowe odległości między punktami. Znaczące punkty, które są daleko od siebie w przestrzeni wielowymiarowej, również pojawią się daleko od siebie w niskiej przestrzeni podprzestrzennej, ale poza tym wszystkie inne pary par zostałyby zepsute.

Czy ktoś mógłby mi pomóc zrozumieć, dlaczego tak jest i co to oznacza graficznie?

— użytkownik
źródło

PCA jest ściśle związana z odległościami Euklidesa i Mahalanobisa, które są krótkowzroczne w wyższych wymiarach, nie widzą małych odległości.

— Aksakal

Należy również zauważyć, że PCA, postrzegany jako najprostszy metryczny MDS, polega na rekonstrukcji zsumowanych kwadratowych odległości euklidesowych. Cierpi precyzja na małe odległości.

— ttnphns

Rozważ następujący zestaw danych:

Oś PC1 maksymalizuje wariancję projekcji. Więc w tym przypadku będzie to oczywiście przebiegać po przekątnej od lewego dolnego do prawego górnego rogu:

Największa odległość parami w oryginalnym zestawie danych znajduje się między tymi dwoma odległymi punktami; zauważ, że jest prawie dokładnie zachowany w PC1. Mniejsze, ale wciąż znaczne odległości parami znajdują się między każdym z peryferyjnych punktów a wszystkimi innymi punktami; są one również dość dobrze zachowane. Ale jeśli spojrzysz na jeszcze mniejsze odległości parami między punktami w gromadzie centralnej, zobaczysz, że niektóre z nich są mocno zniekształcone.

Myślę, że daje to właściwą intuicję: PCA znajduje podprzestrzenną przestrzeń o minimalnej wielkości z maksymalną wariancją. Maksymalna wariancja oznacza, że podprzestrzeń będzie miała tendencję do wyrównania, tak aby zbliżyć się do punktów leżących daleko od centrum; dlatego największe odległości parami będą zwykle dobrze zachowane, a mniejsze mniej.

$10$ $10\times 10$ $10\times 10$ w rzeczywistości najlepiej zachowany właśnie przez PC1 (dowód znajduje się w mojej odpowiedzi). I można argumentować, że duże odległości parami zwykle oznaczają również duże produkty skalarne; w rzeczywistości jeden z algorytmów MDS (klasyczny / Torgerson MDS) jest skłonny wyraźnie przyjąć to założenie.

Podsumowując:

PCA ma na celu zachowanie macierzy pary skalarnych produktów w tym sensie, że suma kwadratowych różnic między oryginalnymi i zrekonstruowanymi produktami skalarowymi powinna być minimalna.
Oznacza to, że raczej zachowa produkty skalarne o największej wartości bezwzględnej i będzie mniej dbać o te o małej wartości bezwzględnej, ponieważ dodają one mniej do sumy błędów kwadratowych.
Dlatego PCA zachowuje większe produkty skalarne lepiej niż te mniejsze.
Odległości w parach zostaną zachowane tylko w takim stopniu, w jakim są podobne do produktów skalarnych, co często, ale nie zawsze, ma miejsce. W takim przypadku większe pary zostaną zachowane lepiej niż mniejsze.

— ameba
źródło

Nie wydaje mi się, żeby to był dobry obraz. Nie pokazuje, jak pogarsza się wraz ze wzrostem wymiarowości

— Aksakal,

Nie jestem pewien, czy rozumiem twój punkt widzenia, @Aksakal. Rozważ zamieszczenie alternatywnej odpowiedzi ze swoim punktem widzenia. Myślę, że efekt lepszego zachowania większych niż mniejszych odległości par jest obecny już w 2D i nie trzeba myśleć o wysokiej wymiarowości, aby zrozumieć, co się dzieje. Dlatego skupiłem się na prostym przykładzie 2D.

— ameba

To, co narysowałeś, będzie miało zastosowanie do dowolnej metody. Mogę odłożyć kilka punktów bardzo daleko i argumentować, że przeważają nad resztą. Problem z odległościami euklidesowymi polega na tym, że ich zakres dynamiczny zmniejsza się wraz ze wzrostem wymiarowości

— Aksakal

+1, ale zmieniam akcent, nieco inaczej niż ty (głównie punkt 4). Nie chodzi o to, że są to odległości, a są to produkty skalarne (macierz „podwójnej centracji”) - w końcu, biorąc pod uwagę przekątną, zachowują identyczne informacje. Problem jest raczej analogiczny do prawdopodobieństwa analizy PCA i Factor. PCoA Torgersona, podobnie jak PCA, będzie dążyć do maksymalizacji rekonstrukcji sc. szturchać. matrycę, głównie poprzez jej przekątną, nie kontrolując konkretnie, w jaki sposób zostaną dopasowane wejścia nie przekątne.

— ttnphns

(cd.) Ślad wspomnianej przekątnej jest ogólną zmiennością i jest bezpośrednio związany z sumą wszystkich kwadratowych odległości parami, pozostawiając poszczególne odległości za sobą. Można by to sformułować również w oparciu o twierdzenie Eckarta-Younga, które stwierdza, że chmura danych zrekonstruowana przez PCA jest najbardziej zbliżona pod względem sumy kwadratów do pierwotnej; to znaczy całkowita kwadratowa odległość między starymi punktami a ich punktami rzutowanymi przez PCA jest minimalna. To nie to samo, co stare odległości parami - nowe relacje odległości pw.

— ttnphns