Poszukuję sztucznych danych 2D w celu wykazania właściwości algorytmów klastrowania


9

Szukam zestawów danych 2-wymiarowych punktów danych (każdy punkt danych jest wektorem dwóch wartości (x, y)) o różnych rozkładach i formach. Pomocny byłby również kod do generowania takich danych. Chcę ich użyć do wykreślenia / wizualizacji działania niektórych algorytmów klastrowych. Oto kilka przykładów:


Głosuję na cw;)
steffen

Podobne pytanie w wierszach określonych zestawów danych zostało zamknięte tutaj: stats.stackexchange.com/questions/38928/…
karawan

W przypadku SPSS napisałem makro generujące klastry (odwiedź moją stronę, patrz „Generowanie klastrów”). Nie wytwarza jednak pretensjonalnych kształtów, takich jak pierścienie lub spirale.
ttnphns,

Odpowiedzi:


11

R zawiera wiele zestawów danych i wygląda na to, że odtworzenie większości przytoczonych przykładów za pomocą kilku wierszy kodu nie byłoby wielkim problemem. Przydatny może być również pakiet mlbench , w szczególności syntetyczne zestawy danych zaczynające się od mlbench.*. Niektóre ilustracje podano poniżej.

wprowadź opis zdjęcia tutaj

Dodatkowe przykłady znajdziesz w widoku zadań klastra w CRAN. Na przykład pakiet fpc ma wbudowany generator zestawów testowych klastrowanych „w kształcie twarzy” ( rFace).

wprowadź opis zdjęcia tutaj

Podobne uwagi dotyczą Pythona, w którym znajdziesz interesujące testy porównawcze i zestawy danych do grupowania w scikit-learn .

W repozytorium uczenia maszynowego UCI znajduje się również wiele zestawów danych , ale lepiej samemu symulować dane w wybranym języku.



2

Ten test porównawczy klastrowania zabawek zawiera różne zestawy danych w formacie ARFF (które można łatwo przekonwertować do formatu CSV), głównie z etykietami typu ground true. Benchmark powinien zweryfikować podstawowe pożądane właściwości algorytmów klastrowania. Większość zestawów danych pochodzi z dokumentów klastrowych, takich jak:

  • BIRCH - Zhang, Tian, ​​Raghu Ramakrishnan i Miron Livny. „BIRCH: wydajna metoda klastrowania danych dla bardzo dużych baz danych”. Rekord ACM SIGMOD. Vol. 25. nr 2. ACM, 1996.
  • CURE - Guha, Sudipto, Rajeev Rastogi i Kyuseok Shim. „CURE: wydajny algorytm klastrowania dla dużych baz danych”. Rekord ACM SIGMOD. Vol. 27. nr 2. ACM, 1998.
  • Chameleon - Karypis, George, Eui-Hong Han i Vipin Kumar. „Chameleon: Hierarchiczne grupowanie przy użyciu modelowania dynamicznego”. Komputer 32.8 (1999): 68-75.
  • Pakiet Podstawowych Problemów Klastra - Ultsch, A .: Klastry z SOM: U * C, In Proc. Warsztaty nt. Samoorganizujących się map, Paryż, Francja, (2005), s. 75–82
  • MOCK - Handl, Julia i Joshua Knowles. „Ewolucyjne podejście do grupowania wielu celów”. Obliczenia ewolucyjne, transakcje IEEE 11.1 (2007): 56-76.
  • Solidne oparte na ścieżkach klastry spektralne - Chang, Hong i Dit-Yan Yeung. „Solidne oparte na ścieżce skupianie widmowe”. Rozpoznawanie wzorów 41.1 (2008): 191-203.

dane karpis dane cluto


1

ELKI zawiera kilka zestawów danych (sprawdź także testy jednostkowe, zawierają one znacznie więcej niż te na stronie internetowej, wraz z ustawieniami parametrów).

Zawiera również dość elastyczny generator danych.


1

Oto konfigurowalny generator klastrów. Dotyczy tylko pewnej klasy zestawów danych, ale z pewnością można go wykorzystać do badania algorytmów klastrowych.

Oto przykład rodzaju klastrów, które może tworzyć:

http://i.stack.imgur.com/vrCG5.png

Przynależność do klastra jest zapisywana w pliku tekstowym. Kod jest open source na licencji MIT.



0

Nie mogę uwierzyć, że nikt nie wspomniał o danych Iris Fishera.

Nie sądzę, że widziałem technikę grupowania, która nie wykorzystuje danych tęczówki jako przykładu.

W r wystarczy wpisać „tęczówkę”, aby uzyskać dostęp do danych.

Oto przykład ładnej (i typowej) fabuły tęczówki: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.