Polecane książki lub artykuły jako wprowadzenie do analizy skupień?


12

Pracuję nad małym (200 mln) fragmentem tekstu, który chcę zbadać za pomocą analizy skupień. Jakie książki lub artykuły na ten temat poleciłbyś?

Odpowiedzi:


6

Warto spojrzeć na książki MW Berry:

  1. Survey of Text Mining I: Clustering, Classification and Retrieval (2003)
  2. Survey of Text Mining II: Clustering, Classification and Retrieval (2008)

Składają się z serii prac aplikacyjnych i przeglądowych. Najnowsze wydaje się być dostępne w formacie PDF pod następującym adresem: http://bit.ly/deNeiy .

Oto kilka linków związanych z CA w zastosowaniu do eksploracji tekstu:

Możesz także spojrzeć na Latent Semantic Analysis , ale zobacz moją odpowiedź: Praca przez problem klastrowania .


5

Znajdowanie grup w danych. Wprowadzenie do analizy skupień autorstwa profesorów Leonarda Kaufmana i Petera J. Rousseeuw.

Czytam książkę i uważam ją za bardzo przydatną, ponieważ:

  • Jak stwierdzili autorzy we wstępie:

Naszym celem było napisanie stosowanej książki dla ogólnego użytkownika. Chcieliśmy udostępnić analizę skupień osobom, które niekoniecznie mają silne zaplecze matematyczne lub statystyczne.

  • Zapewnia treść teoretyczną, aby zrozumieć funkcje dostępne w Rpakiecie Cluster .

  • Rozdziały można czytać indywidualnie zgodnie z interesującą metodą klastrową.
    wyjątkiem jest rozdział 3, który jest oparty na rozdziale 2

Rozdziały książki to:

  1. Wprowadzenie
  2. Partycjonowanie wokół medoidów (Program PAM).
  3. Klastrowanie dużych aplikacji (program CLARA).
  4. Analiza rozmyta (program ŚMIESZNY).
  5. Zagnieżdżanie aglomeracyjne (program AGNES).
  6. Analiza dzieląca (program DIANA).
  7. Analiza monotetyczna (program MONA).

Bibliografia:

Kaufman, L., i Rousseeuw, PJ (2005). Znajdowanie grup w danych. Wprowadzenie do analizy skupień (s. 342). John Wiley & Sons Inc.

Maechler, M. (2013). Analiza skupień Rozszerzona Rousseeuw i in. CRAN.


1
Ta książka rzeczywiście stanowi dobry przegląd tej dziedziny. Koncentruje się na kilku algorytmach / metodach (np. Dobrze znanej sylwetce, która została zaprojektowana przez jednego z autorów książki) i obejmuje je szeroko. Ma także kod, ale styl 1990. FYI: pełny spis treści .
Franck Dernoncourt


2

Analiza skupień autorstwa Briana S. Everitta to ładne podejście do analizy skupień o długości książki.



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.