Rozumiem z artykułu Hintona, że T-SNE wykonuje dobrą robotę, utrzymując lokalne podobieństwa i przyzwoitą pracę, zachowując globalną strukturę (klasterizacja).
Nie jestem jednak pewien, czy punkty pojawiające się bliżej w wizualizacji 2D t-sne można założyć jako „bardziej podobne” punkty danych. Używam danych z 25 funkcjami.
Jako przykład, obserwując poniższy obrazek, mogę założyć, że niebieskie punkty danych są bardziej podobne do zielonych, szczególnie do największego skupiska zielonych punktów ?. Lub, pytając inaczej, czy można założyć, że niebieskie punkty są bardziej podobne do zielonego w najbliższym gromadzie, niż czerwone w drugim gromadzie? (pomijając zielone punkty w czerwonym klastrze)
Obserwując inne przykłady, takie jak te przedstawione w sci-kit, ucz się uczenia się w Manifold, wydaje się słuszne przyjąć to, ale nie jestem pewien, czy jest poprawny statystycznie.
EDYTOWAĆ
Obliczyłem odległości od oryginalnego zestawu danych ręcznie (średnia odległość euklidesowa w parach), a wizualizacja faktycznie reprezentuje proporcjonalną odległość przestrzenną w odniesieniu do zestawu danych. Chciałbym jednak wiedzieć, czy można tego oczekiwać na podstawie oryginalnego matematycznego sformułowania t-sne, a nie zwykłego przypadku.