t
t-SNE próbuje zminimalizować sumę rozbieżności Kullbacka-Leiblera między rozkładem odległości między danymi w pierwotnej domenie a rozkładem odległości między danymi w domenie o zmniejszonym wymiarze (w rzeczywistości rozkładami docelowymi są rozkłady prawdopodobieństwa, że punkt wybierze inny punkt jako swojego sąsiada, ale są one wprost proporcjonalne do odległości między dwoma punktami). Można argumentować, że mniejsze wartości dywergencji KL wykazują lepsze wyniki. Pomysł ten nie działa zbyt dobrze w praktyce, ale teoretycznie pomógłby w wykluczeniu niektórych zakresów wartości zakłopotania, a także niektórych przebiegów algorytmu, które są wyraźnie nieoptymalne. Wyjaśniam, dlaczego ta heurystyka jest daleka od panaceum i jak może być lekko przydatna: Parametr zakłopotania rośnie monotonicznie wraz z wariancją Gaussa stosowaną do obliczania odległości / prawdopodobieństw. Dlatego, gdy zwiększysz parametr perplexity jako całość, otrzymasz mniejsze odległości w wartościach bezwzględnych i kolejne wartości dywergencji KL. Niemniej jednak, jeśli masz 20 przebiegów z tym samym zakłopotaniem i nie możesz (nie chcesz) na nie patrzeć, zawsze możesz wybrać ten z najmniejszą zmienną, mając nadzieję, że zachowa on bardziej oryginalne odległości. To samo dotyczy Niemniej jednak, jeśli masz 20 przebiegów z tym samym zakłopotaniem i nie możesz (nie chcesz) na nie patrzeć, zawsze możesz wybrać ten z najmniejszą zmienną, mając nadzieję, że zachowa on bardziej oryginalne odległości. To samo dotyczy Niemniej jednak, jeśli masz 20 przebiegów z tym samym zakłopotaniem i nie możesz (nie chcesz) na nie patrzeć, zawsze możesz wybrać ten z najmniejszą zmienną, mając nadzieję, że zachowa on bardziej oryginalne odległości. To samo dotyczyθθ
kktt- W końcu przede wszystkim użyto SNE, jeśli wynikowa reprezentacja nie jest pouczająca dla właściwości, które badamy, to po prostu nie jest dobra pomimo niskiego błędu rekonstrukcji, atrakcyjności wizualnej itp.
Zaznaczę, że to, co opisuję, to heurystyka . Jak wspomniano na początku mojego postu, ręczne sprawdzanie wyników jest niezbędnym sposobem oceny jakości wynikowej redukcji / grupowania wymiarów.