k-średnich to metoda dzielenia danych na klastry poprzez znalezienie określonej liczby średnich, k, st, gdy dane są przypisane do klastrów w / najbliższej średniej, suma kwadratów w / i klastra jest zminimalizowana
K-średnich jest szeroko stosowaną metodą analizy skupień. W moim rozumieniu ta metoda NIE wymaga ŻADNYCH założeń, tj. Podaj mi zbiór danych i wcześniej określoną liczbę klastrów, k, i po prostu stosuję ten algorytm, który minimalizuje sumę błędów kwadratu (SSE), wewnątrz klastra do kwadratu błąd. Zatem k-średnich jest zasadniczo problemem optymalizacyjnym. …
Wiem, że k-średnie nie jest nadzorowane i jest używane do grupowania itp. I że k-NN jest nadzorowany. Ale chciałem poznać konkretne różnice między nimi?
Skąd miałbyś wiedzieć, czy twoje (wysokowymiarowe) dane wykazują wystarczającą liczbę klastrów, aby wyniki z kmeans lub innego algorytmu klastrowania były rzeczywiście znaczące? W szczególności w przypadku algorytmu k-średnich, jak duże powinno być zmniejszenie wariancji wewnątrz klastra, aby rzeczywiste wyniki grupowania były znaczące (a nie fałszywe)? Czy klastrowanie powinno być widoczne, …
Używam R, aby wykonać grupowanie K-oznacza. Używam 14 zmiennych do uruchomienia K-średnich Jaki jest ładny sposób na wykreślenie wyników K-średnich? Czy są jakieś istniejące wdrożenia? Czy posiadanie 14 zmiennych komplikuje wykreślanie wyników? Znalazłem coś o nazwie GGcluster, które wygląda fajnie, ale wciąż jest w fazie rozwoju. Przeczytałem też coś o …
Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie spróbowałem t-SNE (po raz pierwszy), co daje mi dziwny kształt …
Czy jest jakiś konkretny cel pod względem wydajności lub funkcjonalności, dlaczego algorytm k-średnich nie wykorzystuje na przykład podobieństwa (dis) cosinusa jako metryki odległości, a może jedynie stosować normę euklidesową? Zasadniczo, czy metoda K-oznacza jest zgodna i poprawna, gdy rozważa się lub stosuje inne odległości niż euklidesowe? [Dodane przez @ttnphns. Pytanie …
Powszechną praktyką jest stosowanie PCA (analiza głównego składnika) przed algorytmem grupowania (takim jak k-średnie). Uważa się, że poprawia to wyniki klastrowania w praktyce (redukcja hałasu). Jestem jednak zainteresowany porównawczym i dogłębnym badaniem związku między PCA i k-średnich. Na przykład Chris Ding i Xiaofeng He, 2004, K-oznacza Clustering poprzez Principal Component …
Znajdujemy centra klastrów i przypisujemy punkty do k różnych pojemników klastra w klastrowaniu k-średnich, który jest bardzo dobrze znanym algorytmem i znajduje się prawie w każdym pakiecie uczenia maszynowego w sieci. Ale brakującą i najważniejszą częścią moim zdaniem jest wybór poprawnego k. Jaka jest jego najlepsza wartość? Co rozumiemy przez …
Studiowałem algorytmy dla grupowania danych (uczenie bez nadzoru): EM i k-średnich. Cały czas czytam: k-średnich jest wariantem EM, przy założeniu, że klastry są kuliste. Czy ktoś może wyjaśnić powyższe zdanie? Nie rozumiem, co oznaczają sfery i jak kmeany i EM są powiązane, ponieważ jeden wykonuje przyporządkowanie probabilistyczne, a drugi w …
Znalazłem ten samouczek , który sugeruje, że powinieneś uruchomić funkcję skalowania na elementach przed grupowaniem (uważam, że konwertuje dane do wyników Z). Zastanawiam się, czy to konieczne. Pytam głównie dlatego, że nie mam łokcia, gdy nie skaluję danych, ale znika, gdy jest skalowane. :)
Mam zestaw danych X, który ma 10 wymiarów, z których 4 to wartości dyskretne. W rzeczywistości te 4 zmienne dyskretne są porządkowe, tzn. Wyższa wartość implikuje wyższy / lepszy semantyczny. 2 z tych zmiennych dyskretnych są jakościowe w tym sensie, że dla każdej z tych zmiennych odległość np. Od 11 …
Kontekst : Chcę podzielić obszary mieszkalne miasta na grupy na podstawie ich cech społeczno-ekonomicznych, w tym gęstości zabudowy, gęstości zaludnienia, powierzchni zieleni, ceny mieszkań, liczby szkół / ośrodków zdrowia / ośrodków opieki dziennej itp. Chcę zrozumieć, na ile różnych grup można podzielić dzielnice mieszkaniowe i jakie są ich unikalne cechy. …
Mam pod ręką następujący problem: Mam bardzo długą listę słów, ewentualnie imion, nazwisk itp. Muszę utworzyć listę słów w taki sposób, aby podobne słowa, na przykład słowa o podobnej odległości edycji (Levenshtein) pojawiły się w ten sam klaster. Na przykład „algorytm” i „alogrithm” powinny mieć duże szanse na pojawienie się …
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.