Jak rzutować przestrzeń wielowymiarową na płaszczyznę dwuwymiarową?


11

Mam zestaw punktów danych w przestrzeni N-wymiarowej. Ponadto mam centroid w tej samej przestrzeni N-wymiarowej. Czy istnieją jakieś podejścia, które pozwalają mi rzutować te punkty danych w dwuwymiarową przestrzeń, zachowując informacje o odległości względnej w pierwotnej przestrzeni. Czy PCA jest poprawny?


1
Jeśli chcesz spróbować zachować odległości, moja pierwsza myśl byłaby wielowymiarowym skalowaniem samych odległości (co jest związane z PCA), ale ponieważ masz lokalizacje, a nie tylko odległości, według mojego zrozumienia, PCA powinno na to działać .
Glen_b

1
@Glen_b, Kluczową kwestią nie jest to, że MDS służy do wprowadzania odległości, a PCA do wprowadzania współrzędnych, ale że iteracyjny MDS pasuje do kilku wymiarów, podczas gdy PCA zachowuje kilka wymiarów. Tak więc MDS zachowuje odległości nieco lepiej niż klasyczne PCA. Odpowiedź na pytanie brzmi: tak, PCA jest odpowiedni, ale MDS jest bardziej odpowiedni.
ttnphns

1
Jest to w dużej mierze badane w dziedzinie osadzania przestrzeni metrycznej , tj. W jaki sposób można zmniejszyć wymiarowość danych przy jednoczesnym zminimalizowaniu zniekształceń odległości.
Bitowy

Odpowiedzi:


6

Ogólna struktura, która rozwiązuje twój problem, nazywa się redukcją wymiarów. Chcesz rzutować dane z N wymiarów na 2 wymiary, zachowując jednocześnie „istotne informacje” w swoich danych. Najbardziej odpowiednia metoda zależy od rozkładu danych, tj. Kolektora N-wymiarowego. PCA zmieści samolot na podstawie kryterium najmniejszych kwadratów. Prawdopodobnie będzie to źle działać w przypadku przykładu „szwajcarskiej rolki”: szwajcarskiej rolki .

Bardziej nowoczesne metody obejmują jądro PCA, LLE, mapy dyfuzji i rzadkie reprezentacje słownika. Jeśli chodzi o zachowanie odległości, niektóre metody mogą zachować odległości inne niż euklidesowe.


2
Należy zauważyć, że metody „zmniejszania wymiarów” zazwyczaj nie utrzymują „informacji o odległości względnej”. To, czy tak się dzieje, zależy częściowo od metody, a częściowo od zamierzonej „odległości”.
whuber

2

Jak wspomniano w poprzedniej odpowiedzi, istnieje wiele metod redukcji wymiarów, a ważną rzeczą do rozważenia jest to, co próbujesz przedstawić - czy jesteś zainteresowany euklidesowymi pomiarami odległości? A może podobieństwo między próbkami?

W przypadku tych pierwszych PCA może być odpowiednie. Jest powszechnie stosowany do ciągłych pomiarów, takich jak pomiary próbek (zwierząt, roślin itp.). Chciałbym też przyjrzeć się bardziej nowoczesnym wzmiankom we wcześniejszej odpowiedzi.

W tym drugim przypadku, w którym możesz próbować porównać podobieństwo za pomocą nieeuklidesowej metryki odległości, istnieje kilka dobrych metod, takich jak zasada składowych zasad (PCoA) i niemetryczne skalowanie wielowymiarowe (NMDS). Przykładem, kiedy możesz z nich skorzystać, jest porównywanie społeczności ekologicznych między różnymi obszarami i liczba znalezionych rodzajów organizmów. Zatem twoje dane są danymi „zliczającymi”. Istnieje wiele wskaźników podobieństwa, takich jak Jaccard, Sorensen, Bray-Curtis, które skutecznie pozwalają oszacować, jak podobne są pod względem składu organizmów. PCoA i NMDS pozwalają w zasadzie wykreślić próbki (miejsca) w celu reprezentacji odległości ekologicznej (podobieństwa), a dla każdej osi masz wynik dla miejsca.

Istnieje wiele dobrych książek i innych zasobów do analizy wielowymiarowej. Wyszukaj „Święcenia” w Google. Ponadto istnieje pakiet R o nazwie „wegański”, który jest naprawdę dobry do wykonywania dużej ilości tej pracy.


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.