Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

1
Procedura wyboru eps i minPts dla DBSCAN
DBSCAN jest najczęściej cytowanym algorytmem klastrowania według literatury i może znaleźć klastry o dowolnym kształcie na podstawie gęstości. Ma dwa parametry eps (jako promień sąsiedztwa) i minPts (jako minimalni sąsiedzi, aby uznać punkt za punkt centralny), co moim zdaniem w dużym stopniu zależy od nich. Czy istnieje jakaś rutynowa lub …

2
Czy istnieje funkcja w R, która pobiera znalezione centra klastrów i przypisuje klastry do nowego zestawu danych
Mam dwie części wielowymiarowego zestawu danych, nazwijmy je trainitest . Chcę zbudować model na podstawie zestawu danych pociągu, a następnie zweryfikować go na zestawie danych testowych. Liczba klastrów jest znana. Próbowałem zastosować klastrowanie k-średnich w R i otrzymałem obiekt zawierający centra klastrów: kClust <- kmeans(train, centers=N, nstart=M) Czy w R …
14 r  clustering  k-means 


3
Czy muszę usunąć zmienne, które są skorelowane / współliniowe przed uruchomieniem kmeans?
Prowadzę kmeans, aby zidentyfikować klastry klientów. Mam około 100 zmiennych do identyfikacji klastrów. Każda z tych zmiennych reprezentuje% wydatków klienta na kategorię. Tak więc, jeśli mam 100 kategorii, mam te 100 zmiennych, więc suma tych zmiennych wynosi 100% dla każdego klienta. Teraz te zmienne są ściśle ze sobą skorelowane. Czy …


5
Jak przekonwertować odległość (euklidesowa) na wynik podobieństwa
Korzystam z oznacza grupowanie głosów w klastrze. Kiedy porównuję wypowiedź do danych głośników w klastrze, otrzymam (na podstawie odległości euklidesowej) średnie zniekształcenie. Odległość ta może wynosić . Chcę przekonwertować tę odległość na wynik podobieństwa . Proszę o wskazówki, jak to osiągnąć.[ 0 , ∞ ] [ 0 , 1 ]kkk[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

1
Najnowocześniejsza deduplikacja
Jakie są najnowocześniejsze metody deduplikacji rekordów? Deduplikacja jest również czasami nazywana: łączenie rekordów, rozpoznawanie jednostek, rozpoznawanie tożsamości, scalanie / czyszczenie. Wiem na przykład o CBLOCK [1]. Byłbym wdzięczny, gdyby odpowiedzi zawierały również odniesienia do istniejącego oprogramowania wdrażającego metody. Wiem na przykład, że Mahout stosuje klastrowanie baldachimu . Jest też Duke, …

3
Klaster Big Data w R i czy próbkowanie jest istotne?
Jestem nowy w nauce o danych i mam problem ze znalezieniem klastrów w zestawie danych z 200 000 wierszy i 50 kolumnami w R. Ponieważ dane mają zarówno zmienne liczbowe, jak i nominalne, metody takie jak K-średnie, które wykorzystują euklidesową miarę odległości, nie wydają się właściwym wyborem. Zwracam się więc …

5
Odpowiednie techniki grupowania danych czasowych?
Mam dane czasowe częstotliwości aktywności. Chcę zidentyfikować klastry w danych, które wskazują różne okresy o podobnych poziomach aktywności. Idealnie chcę zidentyfikować klastry bez określania liczby klastrów a priori. Jakie są odpowiednie techniki klastrowania? Jeśli moje pytanie nie zawiera wystarczającej ilości informacji, aby odpowiedzieć, jakie informacje muszę podać, aby określić odpowiednie …

4
Inicjalizowanie centrów K-średnich za pomocą losowych podpróbek zestawu danych?
Jeśli mam określony zestaw danych, jak mądre byłoby inicjowanie centrów klastrowych przy użyciu losowych próbek tego zestawu danych? Załóżmy na przykład, że chcę 5 clusters. Przyjmuję, 5 random samplespowiedzmy, size=20%oryginalny zestaw danych. Czy mogę wziąć średnią z każdej z 5 losowych próbek i użyć tych środków jako moich 5 początkowych …

2
Wykorzystanie statystycznego testu istotności do sprawdzenia poprawności wyników analizy skupień
Badam wykorzystanie statystycznego testowania istotności (SST) do walidacji wyników analizy skupień. Znalazłem kilka artykułów na ten temat, takich jak „ Statystyczne znaczenie grupowania dla danych o dużych wymiarach i małych próbkach ” Liu, Yufeng i in. (2008) „ O niektórych testach istotności w analizie skupień ”, Bock (1985) Ale jestem …

2
Zrozumienie porównań wyników grupowania
Eksperymentuję z klasyfikowaniem danych do grup. Jestem całkiem nowy w tym temacie i staram się zrozumieć wyniki niektórych analiz. Korzystając z przykładów z Quick-R , Rsugerowanych jest kilka pakietów. Próbowałem użyć dwóch z tych pakietów ( fpcużywając kmeansfunkcji i mclust). Jednym aspektem tej analizy, którego nie rozumiem, jest porównanie wyników. …
13 r  clustering 

1
LARS vs zejście współrzędnych dla lasso
Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.