Pytanie brzmi:
Jaka jest różnica między klasycznymi k-średnimi a sferycznymi k-średnimi?
Klasyczny K-oznacza:
W klasycznych środkach k staramy się zminimalizować odległość euklidesową między centrum gromady a członkami gromady. Intuicja tego polega na tym, że promieniowa odległość od centrum skupiska do położenia elementu powinna „mieć identyczność” lub „być podobna” dla wszystkich elementów tego skupiska.
Algorytm to:
- Ustaw liczbę klastrów (inaczej liczbę klastrów)
- Zainicjuj, losowo przypisując punkty w przestrzeni do wskaźników skupień
- Powtarzaj, aż się zbiegną
- Dla każdego punktu znajdź najbliższy klaster i przypisz punkt do klastra
- Dla każdego klastra znajdź średnią punktów członkowskich i średnią centrum aktualizacji
- Błąd jest normą odległości klastrów
Kuliste K-oznacza:
W sferycznych k-średnich chodzi o ustawienie środka każdego skupienia w taki sposób, aby zarówno jednolity, jak i minimalny był kąt między składnikami. Intuicja przypomina patrzenie na gwiazdy - punkty powinny mieć spójne odstępy między sobą. To odstępy są łatwiejsze do oszacowania jako „podobieństwo kosinusowe”, ale oznacza to, że nie ma galaktyk „mleczno-drogowych” tworzących duże jasne obszary na niebie danych. (Tak, staram się rozmawiać z babcią w tej części opisu.)
Więcej wersji technicznej:
Pomyśl o wektorach, rzeczach, które przedstawiasz jako strzałki z orientacją i stałą długością. Może być przetłumaczony w dowolnym miejscu i być tym samym wektorem. ref
Orientację punktu w przestrzeni (jego kąt względem linii odniesienia) można obliczyć za pomocą algebry liniowej, w szczególności iloczynu punktowego.
Jeśli przeniesiemy wszystkie dane, aby ich ogon znalazł się w tym samym punkcie, możemy porównać „wektory” pod kątem i zgrupować podobne w jedną grupę.
Dla jasności długości wektorów są skalowane, dzięki czemu łatwiej je porównać z gałką oczną.
Możesz myśleć o tym jak o konstelacji. Gwiazdy w jednej gromadzie są w pewnym sensie blisko siebie. To są moje gałki oczne uważane za konstelacje.
Wartość ogólnego podejścia polega na tym, że pozwala nam tworzyć wektory, które inaczej nie miałyby wymiaru geometrycznego, na przykład w metodzie tf-idf, w której wektorami są częstotliwości słów w dokumentach. Dwa dodane słowa „i” nie oznaczają „the”. Słowa są nieciągłe i nienumeryczne. Są niefizyczne w sensie geometrycznym, ale możemy nadać im kształt geometryczny, a następnie użyć metod geometrycznych do ich obsługi. Kuliste k-średnie mogą być używane do grupowania na podstawie słów.
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢x10−0.80.20.8−0.70.9y1−0.80.10.30.10.20.9x2−0.2013−0.95240.20610.4787−0.72760.748y2−0.73160.3639−0.14340.1530.38250.6793groupBACBAC⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
Kilka punktów:
- Występują w sferze jednostkowej, aby uwzględnić różnice w długości dokumentu.
Przeanalizujmy faktyczny proces i zobaczmy, jak (złe) było moje „gałki oczne”.
Procedura jest następująca:
- (ukryty w problemie) łączenie ogonów wektorów u źródła
- rzut na sferę jednostkową (w celu uwzględnienia różnic w długości dokumentu)
- użyj klastrowania, aby zminimalizować „ podobieństwo cosinusa ”
J=∑id(xi,pc(i))
d(x,p)=1−cos(x,p)=⟨x,p⟩∥x∥∥p∥
(więcej edycji wkrótce)
Spinki do mankietów:
- http://epub.wu.ac.at/4000/1/paper.pdf
- http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.11111125125&rep=rep1&type=pdf
- http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
- https://www.jstatsoft.org/article/view/v050i10
- http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-alameterm
- https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf