Zastrzeżenie: Mam tylko wiedzę styczną na ten temat, ale ponieważ nikt inny nie odpowiedział, spróbuję
Odległość jest ważna
Każda technika redukcji wymiarów oparta na odległościach (tSNE, UMAP, MDS, PCoA i ewentualnie inne) jest tak dobra, jak używana przez ciebie metryka odległości. Jak słusznie wskazuje @amoeba, nie może istnieć jedno uniwersalne rozwiązanie, musisz mieć metrykę odległości, która uchwyci to, co uważasz za ważne w danych, tj. Wiersze, które uważasz za podobne, mają małą odległość i rzędy uważają, że różne mają dużą odległość.
Jak wybrać dobrą metrykę odległości? Najpierw pozwól mi zrobić małą dywersję:
Wyświęcenie
Na długo przed dniami świetności współczesnego uczenia maszynowego, ekolodzy społeczni (i prawdopodobnie inni) próbowali stworzyć ładne wykresy do eksploracyjnej analizy danych wielowymiarowych. Nazywają to wyświęcaniem procesu i jest to przydatne słowo kluczowe, którego należy szukać w literaturze ekologii, sięgającej co najmniej lat 70. i wciąż silnej do dziś.
Ważne jest to, że ekolodzy mają bardzo zróżnicowane zbiory danych i zajmują się mieszankami cech binarnych, liczb całkowitych i wartości rzeczywistych (np. Obecność / brak gatunków, liczba zaobserwowanych okazów, pH, temperatura). Spędzili dużo czasu zastanawiając się nad odległościami i transformacjami, aby święcenia działały dobrze. Nie rozumiem zbyt dobrze tej dziedziny, ale na przykład przegląd różnorodności Legendre i De Cáceres Beta jako wariancji danych społeczności: odmienne współczynniki i partycjonowanie pokazuje przeważającą liczbę możliwych odległości, które możesz chcieć sprawdzić.
Skalowanie wielowymiarowe
Narzędziem do wyświęcania jest skalowanie wielowymiarowe (MDS), zwłaszcza wariant niemetryczny (NMDS), do którego zachęcam was do wypróbowania oprócz t-SNE. Nie wiem o świecie Python, ale implementacja R w metaMDS
funkcji vegan
pakietu robi dla ciebie wiele sztuczek (np. Uruchamianie wielu uruchomień, aż znajdzie dwa podobne).
To zostało zakwestionowane, patrz komentarze: Przyjemną częścią MDS jest to, że wyświetla on także elementy (kolumny), dzięki czemu można zobaczyć, które elementy powodują zmniejszenie wymiarów. Pomaga to w interpretacji danych.
Należy pamiętać, że t-SNE został skrytykowany jako narzędzie do zrozumienia, patrz np. Eksploracja jego pułapek - słyszałem, że UMAP rozwiązuje niektóre problemy, ale nie mam doświadczenia z UMAP. Nie wątpię też, że część powodów, dla których ekolodzy używają NMDS, to kultura i bezwładność, być może UMAP lub t-SNE są w rzeczywistości lepsze. Naprawdę nie wiem.
Rozwijanie własnego dystansu
Jeśli rozumiesz strukturę swoich danych, gotowe odległości i transformacje mogą nie być dla Ciebie najlepsze i możesz chcieć zbudować niestandardową miarę odległości. Chociaż nie wiem, co reprezentują twoje dane, rozsądne może być obliczenie odległości osobno dla zmiennych o wartościach rzeczywistych (np. Użycie odległości euklidesowej, jeśli ma to sens) oraz dla zmiennych binarnych i dodanie ich. Typowymi odległościami dla danych binarnych są na przykład odległość Jaccard lub odległość Cosinus . Być może trzeba pomyśleć o pewnym współczynniku multiplikatywnym dla odległości, ponieważ Jaccard i Cosine mają wartości w[ 0 , 1 ] niezależnie od liczby elementów, a wielkość odległości euklidesowej odzwierciedla liczbę elementów.
Słowo ostrzeżenia
Cały czas powinieneś pamiętać, że skoro masz tyle pokręteł do dostrojenia, możesz łatwo wpaść w pułapkę strojenia, dopóki nie zobaczysz tego, co chcesz zobaczyć. Trudno tego całkowicie uniknąć w analizie eksploracyjnej, ale należy zachować ostrożność.