Wizualne wykreślanie wielowymiarowych danych klastra

18

Mam zestaw danych z 16 zmiennymi i po zgrupowaniu według kmeans chcę wykreślić dwie grupy.

Jakie wykresy sugerujesz, aby wizualnie przedstawić dwa klastry?

data-visualization clustering k-means

— DJ_
źródło

23

Nie ma jednej właściwej wizualizacji. To zależy od tego, jaki aspekt klastrów chcesz zobaczyć lub podkreślić.

Czy chcesz zobaczyć, w jaki sposób przyczynia się każda zmienna? Rozważ równoległy wykres współrzędnych.

Współrzędne równoległe dla dwóch klastrów i średnich klastrów

Czy chcesz zobaczyć, w jaki sposób klastry są rozmieszczone wzdłuż głównych komponentów? Rozważ dwupłat (w 2D lub 3D):

Dwupłat klastrowy

Czy chcesz szukać wartości odstających klastra we wszystkich wymiarach? Rozważmy wykres punktowy odległości od środka gromady 1 do odległości od środka gromady 2 (Z definicji K oznacza, że każda gromada spadnie po jednej stronie linii ukośnej).

wprowadź opis zdjęcia tutaj

Czy chcesz zobaczyć relacje par w porównaniu do klastrowania. Rozważ macierz rozrzutu pokolorowaną według skupień.

wprowadź opis zdjęcia tutaj

Czy chcesz zobaczyć podsumowanie odległości klastra? Rozważ porównanie dowolnej wizualizacji dystrybucji, takiej jak histogramy, wykresy skrzypcowe lub wykresy pudełkowe.

wprowadź opis zdjęcia tutaj

— Xan
źródło

2

Wyświetlanie na wielu odmianach jest trudne, szczególnie przy takiej liczbie zmiennych. Mam dwie sugestie.

Jeśli istnieją pewne zmienne, które są szczególnie ważne dla grupowania lub interesujące pod względem merytorycznym, możesz użyć macierzy wykresów rozrzutu i wyświetlić dwuwymiarowe relacje między interesującymi zmiennymi. Możesz nawet użyć ulepszonych wykresów rozrzutu (np. Użyć kształtów o rozmiarze proporcjonalnym do trzeciej zmiennej), aby dodać nieco więcej wymiarów

Alternatywnie można użyć wykresu sprężynowego, który został opracowany do wyświetlania danych o dużych wymiarach, które wykazują grupowanie. Uwaga: nigdy nie widziałem tego w literaturze, którą znam, ale uważam, że jest to bardzo interesujący sposób wyświetlania danych na wielu odmianach. Poniższy cytat dotyczy pierwotnie zaproponowanej fabuły.

Hoffman, PE i in. (1997) Eksploracja danych wizualnych i analitycznych DNA. W postępowaniu z wizualizacji IEEE. Phoenix, AZ, str. 437–441.

I tutaj pierwotnie znalazłem wzmiankę o tym.

Teraz, uczciwe ostrzeżenie, nie byłem w stanie znaleźć implementacji wykresów wiosennych poza Orange. Z drugiej strony, nie szukałem tak mocno!

Zakładam, że twoje dane są wyceniane i ciągłe, jeśli są dyskretne lub nie mają interwałów, itd., Itd., Nie sądzę, aby którykolwiek wykres byłby pomocny.

— Teague
źródło

1

Istnieje implementacja Radviz dla R: cran.r-project.org/web/packages/Radviz/vignettes/…

— pmav99 17.08.18

1

Możesz użyć funkcji fviz_cluster z factoextra pacakge w R. Wyświetli ona wykres rozproszenia twoich danych, a różne kolory punktów będą skupieniem.

O ile mi wiadomo, ta funkcja wykonuje PCA, a następnie wybiera dwa najlepsze komputery i wykreśla je na 2D.

Wszelkie sugestie / poprawki w mojej odpowiedzi są bardzo mile widziane.

— Rohit parihar
źródło