k-średnich to metoda dzielenia danych na klastry poprzez znalezienie określonej liczby średnich, k, st, gdy dane są przypisane do klastrów w / najbliższej średniej, suma kwadratów w / i klastra jest zminimalizowana
Chciałbym zrozumieć, jaka jest główna różnica w implementacji między standardowymi a sferycznymi algorytmami klastrowania k-średnich. Na każdym etapie k-średnich oblicza odległości między wektorami elementów i centroidami gromady i ponownie przypisuje dokument do tej gromady, której centroid jest najbliższy. Następnie wszystkie centroidy są przeliczane. W sferycznych średnich k wszystkie wektory są …
Potrzebuję użyć zmiennych binarnych (wartości 0 i 1) w k-średnich. Ale k-średnie działa tylko ze zmiennymi ciągłymi. Wiem, że niektórzy ludzie nadal używają tych zmiennych binarnych w k-średnich, ignorując fakt, że k-średnie jest zaprojektowane tylko dla zmiennych ciągłych. To jest dla mnie nie do przyjęcia. Pytania: Jaki jest zatem statystycznie …
Że pewne punkty w , i chcę skupić punkty, aby:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p Każda grupa zawiera taką samą liczbę elementów . (Załóżmy, że liczba klastrów dzieli .)XXXnnn Każda klaster jest w pewnym sensie „przestrzennie spójny”, podobnie jak klastry z średnich.kkk Łatwo jest wymyślić wiele procedur klastrowania, które spełniają jedną lub drugą z nich, …
Mam tabelę bazy danych przesyłania danych między różnymi węzłami. To ogromna baza danych (z prawie 40 milionami transferów). Jednym z atrybutów jest liczba transferów bajtów (nbajtów) w zakresie od 0 bajtów do 2 tera bajtów. Chciałbym zgrupować nbytes w taki sposób, aby dane k klastrów zawierały niektóre transfery x1 należące …
Chcę wykonać K-oznacza grupowanie obiektów, które mam, ale obiekty te nie są opisywane jako punkty w przestrzeni, tj. Przez objects x featureszestaw danych. Jestem jednak w stanie obliczyć odległość między dowolnymi dwoma obiektami (jest ona oparta na funkcji podobieństwa). Pozbywam się macierzy odległości objects x objects. Wcześniej zaimplementowałem K-średnich, ale …
Czytam Bishopa o algorytmie EM dla GMM i związku między GMM a k-średnich. W tej książce jest napisane, że k-średnich jest trudną wersją GMM. Zastanawiam się, czy to implikuje, że jeśli dane, które próbuję skupić, nie są gaussowskie, nie mogę użyć k-średnich (a przynajmniej nie nadaje się do użycia)? Na …
Mam macierz korelacji, która określa, w jaki sposób każdy element jest skorelowany z drugim elementem. Dlatego dla N elementów mam już macierz korelacji N * N. Korzystając z tej macierzy korelacji, w jaki sposób grupuję N elementów w pojemnikach M, aby móc powiedzieć, że elementy Nk w k-tym bin zachowują …
W przypadku zadania poproszono mnie o przedstawienie dowodu, że k-średnie zbiega się w skończonej liczbie kroków. Oto co napisałem: CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) Krok 2 odnosi się do kroku, który oznacza każdy punkt danych najbliższym centrum skupienia, a krok 3 jest krokiem, w którym centra są aktualizowane przy użyciu średniej. Nie …
Czy ktoś może wyjaśnić zalety i wady hierarchicznego grupowania? Czy klastrowanie hierarchiczne ma te same wady, co oznacza K? Jakie są zalety Hierarchical Clustering nad K? Kiedy powinniśmy używać środków K zamiast hierarchicznego grupowania i odwrotnie? Odpowiedzi na ten post wyjaśnia wady k oznacza bardzo dobrze. Jak zrozumieć wady K-średnich
Używam K-średnich do klastra moich danych i szukałem sposobu, aby zasugerować „optymalny” numer klastra. Statystyki luk wydają się być powszechnym sposobem na znalezienie dobrego numeru klastra. Z jakiegoś powodu zwraca 1 jako optymalną liczbę klastrów, ale kiedy patrzę na dane, widać, że istnieją 2 klastry: Tak nazywam lukę w R: …
Mam zestaw danych z 16 zmiennymi i po zgrupowaniu według kmeans chcę wykreślić dwie grupy. Jakie wykresy sugerujesz, aby wizualnie przedstawić dwa klastry?
Czytałem, że algorytm k-średnich jest zbieżny tylko z lokalnym minimum, a nie globalnym minimum. Dlaczego to? Mogę logicznie myśleć o tym, w jaki sposób inicjalizacja mogłaby wpłynąć na końcowe grupowanie i istnieje możliwość nieoptymalnego grupowania, ale nie znalazłem niczego, co matematycznie to udowodni. Ponadto, dlaczego k-oznacza proces iteracyjny? Czy nie …
Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
Miejsca, które czytałem o klątwie wymiarowej, wyjaśniają to przede wszystkim w odniesieniu do kNN, a ogólnie modeli liniowych. Regularnie widzę najlepszych rankingów w Kaggle korzystających z tysięcy funkcji w zbiorze danych, który prawie nie ma 100 000 punktów danych. Używają głównie drzew Boosted i NN. To, że wiele cech wydaje …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.