Różnica między standardowymi a sferycznymi algorytmami k-średnich


28

Chciałbym zrozumieć, jaka jest główna różnica w implementacji między standardowymi a sferycznymi algorytmami klastrowania k-średnich.

Na każdym etapie k-średnich oblicza odległości między wektorami elementów i centroidami gromady i ponownie przypisuje dokument do tej gromady, której centroid jest najbliższy. Następnie wszystkie centroidy są przeliczane.

W sferycznych średnich k wszystkie wektory są znormalizowane, a miarą odległości jest podobieństwo cosinus.

Czy to wszystko, czy jest coś jeszcze?

Odpowiedzi:


23

Pytanie brzmi:

Jaka jest różnica między klasycznymi k-średnimi a sferycznymi k-średnimi?

Klasyczny K-oznacza:

W klasycznych środkach k staramy się zminimalizować odległość euklidesową między centrum gromady a członkami gromady. Intuicja tego polega na tym, że promieniowa odległość od centrum skupiska do położenia elementu powinna „mieć identyczność” lub „być podobna” dla wszystkich elementów tego skupiska.

Algorytm to:

  • Ustaw liczbę klastrów (inaczej liczbę klastrów)
  • Zainicjuj, losowo przypisując punkty w przestrzeni do wskaźników skupień
  • Powtarzaj, aż się zbiegną
    • Dla każdego punktu znajdź najbliższy klaster i przypisz punkt do klastra
    • Dla każdego klastra znajdź średnią punktów członkowskich i średnią centrum aktualizacji
    • Błąd jest normą odległości klastrów

Kuliste K-oznacza:

W sferycznych k-średnich chodzi o ustawienie środka każdego skupienia w taki sposób, aby zarówno jednolity, jak i minimalny był kąt między składnikami. Intuicja przypomina patrzenie na gwiazdy - punkty powinny mieć spójne odstępy między sobą. To odstępy są łatwiejsze do oszacowania jako „podobieństwo kosinusowe”, ale oznacza to, że nie ma galaktyk „mleczno-drogowych” tworzących duże jasne obszary na niebie danych. (Tak, staram się rozmawiać z babcią w tej części opisu.)

Więcej wersji technicznej:

Pomyśl o wektorach, rzeczach, które przedstawiasz jako strzałki z orientacją i stałą długością. Może być przetłumaczony w dowolnym miejscu i być tym samym wektorem. ref

wprowadź opis zdjęcia tutaj

Orientację punktu w przestrzeni (jego kąt względem linii odniesienia) można obliczyć za pomocą algebry liniowej, w szczególności iloczynu punktowego.

Jeśli przeniesiemy wszystkie dane, aby ich ogon znalazł się w tym samym punkcie, możemy porównać „wektory” pod kątem i zgrupować podobne w jedną grupę.

wprowadź opis zdjęcia tutaj

Dla jasności długości wektorów są skalowane, dzięki czemu łatwiej je porównać z gałką oczną.

wprowadź opis zdjęcia tutaj

Możesz myśleć o tym jak o konstelacji. Gwiazdy w jednej gromadzie są w pewnym sensie blisko siebie. To są moje gałki oczne uważane za konstelacje.

wprowadź opis zdjęcia tutaj

Wartość ogólnego podejścia polega na tym, że pozwala nam tworzyć wektory, które inaczej nie miałyby wymiaru geometrycznego, na przykład w metodzie tf-idf, w której wektorami są częstotliwości słów w dokumentach. Dwa dodane słowa „i” nie oznaczają „the”. Słowa są nieciągłe i nienumeryczne. Są niefizyczne w sensie geometrycznym, ale możemy nadać im kształt geometryczny, a następnie użyć metod geometrycznych do ich obsługi. Kuliste k-średnie mogą być używane do grupowania na podstawie słów.

[x1y1x2y2group00.80.20130.7316B0.80.10.95240.3639A0.20.30.20610.1434C0.80.10.47870.153B0.70.20.72760.3825A0.90.90.7480.6793C]

Kilka punktów:

  • Występują w sferze jednostkowej, aby uwzględnić różnice w długości dokumentu.

Przeanalizujmy faktyczny proces i zobaczmy, jak (złe) było moje „gałki oczne”.

Procedura jest następująca:

  1. (ukryty w problemie) łączenie ogonów wektorów u źródła
  2. rzut na sferę jednostkową (w celu uwzględnienia różnic w długości dokumentu)
  3. użyj klastrowania, aby zminimalizować „ podobieństwo cosinusa

J=id(xi,pc(i))

d(x,p)=1cos(x,p)=x,pxp

(więcej edycji wkrótce)

Spinki do mankietów:

  1. http://epub.wu.ac.at/4000/1/paper.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.11111125125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-alameterm
  6. https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf

W plikach tekstowych myślę, że funkcja „różnicowania”, która wyrównuje znaki lub wskazuje zmiany wraz z wagami, może być przydatna w przypadku wstępnego przetwarzania tekstów „zbliżonych do siebie” w celu poprawy znaczącego grupowania
EngrStudent - Przywróć Monikę

Dostaję „Access zabronione” pod linkiem nr 1 ( sci.utah.edu/~weiliu/research/clustering_fmri/… )
David Doria,

@David - ja też. Zawsze w ruchu jest ... internet? Chwileczkę.
EngrStudent - Przywróć Monikę

1
Po pewnym wahaniu zdecydowałem się głosować na tę odpowiedź. To nie jest tylko „babcia” wytłumaczenie, jest nieprecyzyjne. radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that clusterbrzmi po prostu niepoprawnie lub tępo. W both uniform and minimal the angle between components„komponentach” nie jest zdefiniowany. Mam nadzieję, że możesz poprawić potencjalnie świetną odpowiedź, jeśli zrobisz to nieco bardziej rygorystycznie i rozbudowany.
ttnphns
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.