To było w mojej głowie przez co najmniej kilka godzin. Próbowałem znaleźć optymalne k dla danych wyjściowych z algorytmu k-średnich (z metryką podobieństwa kosinusowego ), więc skończyłem na wykreślaniu zniekształcenia w funkcji liczby klastrów. Mój zestaw danych to zbiór 800 dokumentów w 600-wymiarowej przestrzeni.
Z tego, co rozumiem, znalezienie punktu kolana lub łokcia na tej krzywej powinno mi powiedzieć co najmniej w przybliżeniu liczbę skupień, w których muszę umieścić moje dane. Umieszczam poniższy wykres. Punkt, w którym narysowano czerwoną pionową linię, uzyskano za pomocą testu maksymalnej drugiej pochodnej . Po wykonaniu tego wszystkiego utknąłem w czymś znacznie prostszym: co ten wykres mówi mi o zbiorze danych?
Czy mówi mi, że nie warto grupować i że w moich dokumentach brakuje struktury, lub że muszę ustawić bardzo wysoką wartość k? Jedną dziwną rzeczą jest to, że nawet przy niskim k widzę podobne dokumenty w klastrze, więc nie jestem pewien, dlaczego otrzymuję tę krzywą. jakieś pomysły?
terms x document
uzyskaną po wykonaniu pojedynczego wektora rozkład. Popraw mnie, jeśli się mylę.