k-średnich to metoda dzielenia danych na klastry poprzez znalezienie określonej liczby średnich, k, st, gdy dane są przypisane do klastrów w / najbliższej średniej, suma kwadratów w / i klastra jest zminimalizowana
Użyłem kmeansinstrukcji R do wykonania algorytmu k-średnich w zestawie danych tęczówki Andersona. Mam pytanie dotyczące niektórych parametrów, które otrzymałem. Wyniki są następujące: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 W takim przypadku, co oznacza „klaster”? Czy jest to średnia odległości wszystkich obiektów w klastrze? Również w …
To było w mojej głowie przez co najmniej kilka godzin. Próbowałem znaleźć optymalne k dla danych wyjściowych z algorytmu k-średnich (z metryką podobieństwa kosinusowego ), więc skończyłem na wykreślaniu zniekształcenia w funkcji liczby klastrów. Mój zestaw danych to zbiór 800 dokumentów w 600-wymiarowej przestrzeni. Z tego, co rozumiem, znalezienie punktu …
Interesuje mnie obecny stan wiedzy w zakresie selekcji początkowych nasion (ośrodków skupień) dla K-średnich. Googling prowadzi do dwóch popularnych opcji: losowy wybór nasion początkowych oraz przy użyciu techniki selekcji KMeans ++: Arthur i Vassilvitskii 2006 k-znaczy ++: Zalety ostrożnego siewu Czy są jakieś inne obiecujące metody, o których ktoś tu …
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
Mam dużą (650K wierszy * 62 kolumny) macierz danych binarnych (tylko wpisy 0-1). Matryca jest w większości rzadka: około 8% jest wypełnione. Chciałbym podzielić go na 5 grup - powiedzmy nazwanych od 1 do 5. Próbowałem zgrupować hierarchicznie i nie byłem w stanie obsłużyć rozmiaru. Użyłem również algorytmu grupowania k-średnich …
Podstawowy problem Oto mój podstawowy problem: próbuję zgrupować zestaw danych zawierający niektóre bardzo wypaczone zmienne z licznikami. Zmienne zawierają wiele zer i dlatego nie są zbyt pouczające dla mojej procedury klastrowania - która prawdopodobnie jest algorytmem k-średnich. Dobra, mówisz, po prostu przekształć zmienne za pomocą pierwiastka kwadratowego, pola Coxa lub …
Rozumiem różnicę między k medoidą a k oznacza średnią. Ale czy możesz podać mi przykład z małym zestawem danych, w którym wyjście medoidy k jest inne niż k oznacza wyjście.
Używam ukrytej analizy semantycznej do reprezentowania zbioru dokumentów w przestrzeni o niższych wymiarach. Chcę zgrupować te dokumenty w dwie grupy za pomocą k-średnich. Kilka lat temu zrobiłem to, używając gensim Pythona i pisząc własny algorytm k-średnich. Określiłem centroidy gromadowe na podstawie odległości euklidesowej, ale następnie zgrupowałem każdy dokument na podstawie …
Mam bardzo podstawowe pytanie dotyczące grupowania. Po znalezieniu k klastrów wraz z ich centroidami, jak przejść do interpretacji klas punktów danych, które zgrupowałem (przypisując znaczące etykiety klas do każdego klastra). Nie mówię o walidacji znalezionych klastrów. Czy można to zrobić, biorąc pod uwagę niewielki zestaw punktów danych, obliczyć, do którego …
Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …
Nie mam doświadczenia w branży eksploracji danych ani dużych zbiorów danych, więc chciałbym usłyszeć, jak dzielisz się doświadczeniami. Czy ludzie faktycznie używają k-średnich, PAM, CLARA itp. Na naprawdę dużym zbiorze danych? Czy po prostu losowo wybierają z niego próbkę? Jeśli po prostu pobiorą próbkę zestawu danych, czy wynik byłby wiarygodny, …
Mam zestaw danych 50 próbek. Każda próbka składa się z 11 (prawdopodobnie skorelowanych) cech logicznych. Chciałbym przedstawić, w jaki sposób wizualizować te próbki na wykresie 2D i sprawdzić, czy wśród 50 próbek znajdują się klastry / grupy. Wypróbowałem następujące dwa podejścia: (a) Uruchom PCA na matrycy 50x11 i wybierz pierwsze …
Tak więc uzyskanie „idei” optymalnej liczby klastrów w k-średnich jest dobrze udokumentowane. Znalazłem artykuł o robieniu tego w mieszankach gaussowskich, ale nie jestem pewien, czy mnie to przekonuje, nie rozumiem tego zbyt dobrze. Czy istnieje ... łagodniejszy sposób na zrobienie tego?
Przyjmuję dane pozorne temperatury w stosunku do sprzedaży lodów i skategoryzowałem je za pomocą K oznacza (n klastrów = 2), aby rozróżnić 2 kategorie (całkowicie pozorne). Teraz przeprowadzam analizę głównych składników tych danych, a moim celem jest zrozumienie tego, co widzę. Wiem, że celem PCA jest zmniejszenie wymiarów (oczywiście nie …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.