k-średnich to metoda dzielenia danych na klastry poprzez znalezienie określonej liczby średnich, k, st, gdy dane są przypisane do klastrów w / najbliższej średniej, suma kwadratów w / i klastra jest zminimalizowana
Wiem, że istnieje algorytm grupowania k-średnich i k-mediana. Jeden, który wykorzystuje średnią jako środek skupienia, a drugi wykorzystuje medianę. Moje pytanie brzmi: kiedy / gdzie użyć którego?
Wiem, że k-średnie jest zwykle optymalizowane przy użyciu Maksymalizacji oczekiwań . Jednak moglibyśmy zoptymalizować jego funkcję utraty w ten sam sposób, w jaki zoptymalizowaliśmy każdy inny! Znalazłem kilka artykułów, które faktycznie używają stochastycznego spadku gradientu dla dużych k-średnich, ale nie mogłem uzyskać odpowiedzi na moje pytanie. Czy ktoś wie, dlaczego …
Badałem k-średnich i oto, co otrzymałem: k-średnich jest jednym z najprostszych algorytmów, który wykorzystuje metodę uczenia bez nadzoru w celu rozwiązania znanych problemów związanych z klastrowaniem. Działa naprawdę dobrze z dużymi zestawami danych. Istnieją jednak także wady K-Means: Silna wrażliwość na wartości odstające i hałas Nie działa dobrze w przypadku …
Wydaje się, że w przypadku średnich K i innych powiązanych algorytmów grupowanie opiera się na obliczaniu odległości między punktami. Czy jest taki, który działa bez niego?
Powiadomienie po tabeli ANOVA po analizie K-średnich wskazuje, że poziomy istotności nie powinny być traktowane jako test równych średnich, ponieważ rozwiązanie klastrowe zostało wyprowadzone na podstawie odległości euklidesowej w celu maksymalizacji odległości. Jakiego testu należy użyć, aby pokazać, czy średnie zmiennych klastrowych różnią się między klastrami? Widziałem to ostrzeżenie w …
Mam dwie części wielowymiarowego zestawu danych, nazwijmy je trainitest . Chcę zbudować model na podstawie zestawu danych pociągu, a następnie zweryfikować go na zestawie danych testowych. Liczba klastrów jest znana. Próbowałem zastosować klastrowanie k-średnich w R i otrzymałem obiekt zawierający centra klastrów: kClust <- kmeans(train, centers=N, nstart=M) Czy w R …
Czy ktoś może mi wskazać implementację k-średnich (byłoby lepiej, gdyby w Matlabie), która może wprowadzić macierz odległości na wejściu? Standardowa implementacja Matlaba wymaga macierzy obserwacji na wejściu i nie jest możliwe niestandardowe zmienianie miary podobieństwa.
Prowadzę kmeans, aby zidentyfikować klastry klientów. Mam około 100 zmiennych do identyfikacji klastrów. Każda z tych zmiennych reprezentuje% wydatków klienta na kategorię. Tak więc, jeśli mam 100 kategorii, mam te 100 zmiennych, więc suma tych zmiennych wynosi 100% dla każdego klienta. Teraz te zmienne są ściśle ze sobą skorelowane. Czy …
Korzystam z oznacza grupowanie głosów w klastrze. Kiedy porównuję wypowiedź do danych głośników w klastrze, otrzymam (na podstawie odległości euklidesowej) średnie zniekształcenie. Odległość ta może wynosić . Chcę przekonwertować tę odległość na wynik podobieństwa . Proszę o wskazówki, jak to osiągnąć.[ 0 , ∞ ] [ 0 , 1 ]kkk[0,∞][0,∞][0,\infty][0,1][0,1][0,1]
Jeśli mam określony zestaw danych, jak mądre byłoby inicjowanie centrów klastrowych przy użyciu losowych próbek tego zestawu danych? Załóżmy na przykład, że chcę 5 clusters. Przyjmuję, 5 random samplespowiedzmy, size=20%oryginalny zestaw danych. Czy mogę wziąć średnią z każdej z 5 losowych próbek i użyć tych środków jako moich 5 początkowych …
Nauczyłem się, że wybierając liczbę klastrów, powinieneś poszukać punktu łokcia dla różnych wartości K. Wykreśliłem wartości withinss dla wartości k od 1 do 10, ale nie widzę wyraźnego łokieć. Co robisz w takim przypadku?
Obecnie próbuję obliczyć BIC dla mojego zestawu danych zabawek (ofc iris (:). Chcę odtworzyć wyniki, jak pokazano tutaj (ryc. 5). Ten papier jest również moim źródłem dla formuł BIC. Mam z tym 2 problemy: Notacja: ninin_i I = liczba elementów w klastrzeiii CiCiC_i i = współrzędne środkowe klastraiii xjxjx_j i …
Mam pewne punkty danych, każdy zawierający 5 wektorów aglomerowanych wyników dyskretnych, wyniki każdego wektora generowane przez inny rozkład (konkretny rodzaj, którego nie jestem pewien, najlepiej zgaduję, że Weibull, z parametrem kształtu zmieniającym się gdzieś w pobliżu wykładniczej mocy prawo (od 1 do 0, z grubsza).) Chcę użyć algorytmu klastrowania, takiego …
Bahman Bahmani i in. wprowadzono k-średnich ||, która jest szybszą wersją k-średnich ++. Algorytm ten pochodzi ze strony 4 ich pracy , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., i Vassilvitskii, S. (2012). Skalowalne k-średnie ++. Postępowanie z VLDB Endowment , 5 (7), 622-633. Niestety nie rozumiem tych wymyślnych …
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.