Kiedy łączymy redukcję wymiarowości z klastrowaniem?


16

Próbuję przeprowadzić klastrowanie na poziomie dokumentu. Skonstruowałem macierz częstotliwości termin-dokument i próbuję zgrupować te wektory o dużych wymiarach za pomocą k-średnich. Zamiast bezpośredniego grupowania, najpierw zastosowałem dekompozycję wektora osobliwego LSA (Latent Semantic Analysis) w celu uzyskania macierzy U, S, Vt, wybrałem odpowiedni próg za pomocą wykresu piargowego i zastosowałem grupowanie na zredukowanych macierzach (szczególnie Vt, ponieważ daje mi informacje o dokumencie koncepcyjnym), które wydawały się dawać dobre wyniki.

Słyszałem, jak niektórzy mówili, że SVD (rozkład pojedynczego wektora) jest grupowaniem (za pomocą miary podobieństwa cosinusowego itp.) I nie byłem pewien, czy mogę zastosować k-średnie na wyjściu SVD. Myślałem, że to logicznie poprawne, ponieważ SVD jest techniką redukcji wymiarów, daje mi mnóstwo nowych wektorów. Z drugiej strony, k-średnie weźmie liczbę klastrów jako dane wejściowe i podzieli te wektory na określoną liczbę klastrów. Czy ta procedura jest wadliwa lub czy istnieją sposoby jej poprawy? Jakieś sugestie?


dobre pytanie. osobiście myślałem o tych rzeczach. ale nie mam dobrej odpowiedzi.
suncoolsu,

1
Istnieją metody, które jednocześnie przeprowadzają redukcję wymiarów i grupowanie. Metody te poszukują optymalnie dobranej reprezentacji niskiego wymiaru, aby ułatwić identyfikację klastrów. Na przykład zobacz klastrowany pakiet w R i powiązane odniesienia.
Nat

Odpowiedzi:


6

Nie jest to bynajmniej pełna odpowiedź, pytanie, które powinieneś zadać brzmi: „jakie odległości są zachowane podczas zmniejszania wymiarów?”. Ponieważ algorytmy grupowania, takie jak K-średnie, działają tylko na odległościach, właściwą metryką odległości, którą należy zastosować (teoretycznie), jest metryka odległości, którą zachowuje redukcja wymiarowości. W ten sposób krok redukcji wymiarowości można postrzegać jako skrót obliczeniowy do grupowania danych w przestrzeni o niższych wymiarach. (również w celu uniknięcia lokalnych minimów itp.)

Jest tu wiele subtelności, których nie będę udawał, że rozumiem (odległości lokalne vs. odległości globalne, jak zniekształcają się odległości względne itp.), Ale myślę, że to właściwy kierunek, aby myśleć o tych sprawach teoretycznie.


+1 To bardzo interesujące podejście do pytania. W takim przypadku, czy euklidesowy można uznać za jedną z takich miar? W miarę zmniejszania się wymiarów punkty są rzutowane na przestrzeń o niższych wymiarach, ale może to oznaczać utratę pojęcia odległości. Trudno mi zrozumieć, w jaki sposób można zachować odległości, stosując takie redukcje.
Legenda,

1
Myślę, że ta odpowiedź jest w zasadzie poprawna. Chcesz znaleźć osadzenie w mniejszej przestrzeni, która zachowuje odległości (dla pewnego pojęcia odległości). Dwa dobre algorytmy do sprawdzenia to izomapa i lokalnie liniowe osadzanie . „Zachowanie sąsiedztwa” wydaje się dobrym podejściem, jeśli Twoim celem jest grupowanie.
Stumpy Joe Pete,

5

W odpowiedzi na Twój tytuł „Kiedy łączymy redukcję wymiarowości z klastrowaniem?” zamiast pełnego pytania. Jeden możliwy powód jest oczywisty: kiedy chcemy zabezpieczyć wartości odstające od agaistów. K-oznacza algo, jeśli bez wskazania początkowych centrów, rozbiera k najbardziej rozbieżnych punktów w chmurze jako początkowe centra, a właściwie mogą to być wartości odstające. Wstępne działanie PCA neutralizuje wartości odstające, które leżą wzdłuż młodszych komponentów - poprzez rzutowanie ich na kilka starszych komponentów, które są zachowane w PCA.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.