Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

4
Grupowanie macierzy korelacji
Mam macierz korelacji, która określa, w jaki sposób każdy element jest skorelowany z drugim elementem. Dlatego dla N elementów mam już macierz korelacji N * N. Korzystając z tej macierzy korelacji, w jaki sposób grupuję N elementów w pojemnikach M, aby móc powiedzieć, że elementy Nk w k-tym bin zachowują …

5
Czy istnieje funkcja R, która będzie obliczać macierz różnicy cosinus? [Zamknięte]
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte w zeszłym roku . Chciałbym zrobić mapę cieplną z grupowaniem wierszy na podstawie odległości cosinusowych. Używam R i heatmap.2()do robienia figury. Widzę, że zawiera distparametr, …


8
Grupowanie danych mieszanych z R
Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Zastanawiam się, czy możliwe jest wykonanie w obrębie R grupowania danych o mieszanych zmiennych danych. Innymi słowy, mam zestaw danych zawierający zarówno zmienne liczbowe, jak …


4
Czy w przypadku danych kategorycznych mogą istnieć klastry bez powiązanych zmiennych?
Próbując wyjaśnić analizy skupień, ludzie często błędnie rozumieją ten proces jako związany z korelacją zmiennych. Jednym ze sposobów na ominięcie tego zamieszania jest taki spisek: To wyraźnie pokazuje różnicę między pytaniem, czy istnieją klastry, a pytaniem, czy zmienne są powiązane. Ilustruje to jednak tylko rozróżnienie dla ciągłych danych. Mam problem …



3
Dlaczego statystyki luk dla k-średnich sugerują jeden klaster, chociaż oczywiście są dwa z nich?
Używam K-średnich do klastra moich danych i szukałem sposobu, aby zasugerować „optymalny” numer klastra. Statystyki luk wydają się być powszechnym sposobem na znalezienie dobrego numeru klastra. Z jakiegoś powodu zwraca 1 jako optymalną liczbę klastrów, ale kiedy patrzę na dane, widać, że istnieją 2 klastry: Tak nazywam lukę w R: …

1
Algorytmy grupowania, które działają na rzadkich macierzach danych [zamknięte]
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 5 lat temu . Próbuję skompilować listę algorytmów klastrowania, które są: Zaimplementowano w R Operuj na rzadkich macierzach danych (nie (nie) macierzach podobieństwa), takich jak …
18 r  clustering  sparse 


4
Czy „przekleństwo wymiarowości” naprawdę istnieje w rzeczywistych danych?
Rozumiem, co to jest „klątwa wymiarowości”, i zrobiłem kilka problemów związanych z optymalizacją wymiarów i znam wyzwanie możliwości wykładniczych. Wątpię jednak, czy „przekleństwo wymiarowości” istnieje w większości danych rzeczywistych (odłóżmy na chwilę zdjęcia lub filmy, myślę o danych takich jak dane demograficzne klientów i dane dotyczące zachowań zakupowych). Możemy gromadzić …

2
Grupowanie - intuicja stojąca za twierdzeniem Kleinberga o niemożliwości
Zastanawiałem się nad napisaniem posta na blogu na temat tej ciekawej analizy Kleinberga (2002), która bada trudność tworzenia klastrów. Kleinberg przedstawia trzy pozornie intuicyjne desiderata funkcji klastrowania, a następnie udowadnia, że ​​taka funkcja nie istnieje. Istnieje wiele algorytmów grupowania, które spełniają dwa z trzech kryteriów; jednak żadna funkcja nie może …

9
Obliczanie indeksu Rand
Próbuję wymyślić, jak obliczyć Indeks Rand algorytmu klastra, ale utknąłem w punkcie, w jaki sposób obliczyć prawdziwe i fałszywe negatywy. W tej chwili korzystam z przykładu z książki An Introduction to Information Retrieval (Manning, Raghavan & Schütze, 2009). Na stronie 359 mówią o tym, jak obliczyć indeks Rand. W tym …
17 clustering 

1
Parametry wejściowe do użycia ukrytego przydziału Dirichleta
Podczas korzystania z modelowania tematów (Latent Dirichlet Allocation) liczba tematów jest parametrem wejściowym, który użytkownik musi określić. Wydaje mi się, że powinniśmy również dostarczyć zbiór kandydujących zestawów tematów, z którymi proces Dirichleta musi próbkować? Czy moje rozumowanie jest prawidłowe? W praktyce, jak skonfigurować tego rodzaju zestaw tematów kandydujących?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.