Czym różni się znalezienie środka ciężkości od znalezienia średniej?


26

Podczas klastrowania hierarchicznego można użyć wielu metryk do pomiaru odległości między klastrami. Dwie takie miary sugerują obliczenie centroidów i średnich punktów danych w klastrach.

Jaka jest różnica między średnią a środkiem ciężkości? Czy to nie ten sam punkt w gromadzie?

Odpowiedzi:


38

O ile mi wiadomo, „środek” klastra i centroid pojedynczego klastra to to samo, chociaż termin „centroid” może być nieco bardziej precyzyjny niż „średni” w przypadku danych wielowymiarowych.

Aby znaleźć środek ciężkości, oblicza się (arytmetyczną) średnią pozycji punktów osobno dla każdego wymiaru. Na przykład, jeśli masz punkty w:

  • (-1, 10, 3),
  • (0, 5, 2) i
  • (1, 20, 10),

wtedy środek ciężkości byłby zlokalizowany w ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), co upraszcza (0, 11 2/3, 5). (Uwaga: Centroid nie musi być - i rzadko jest --- jednym z oryginalnych punktów danych)

Środek ciężkości jest czasem nazywany również środkiem masy lub centrum środka ciężkości, w oparciu o jego fizyczną interpretację (jest to środek masy obiektu zdefiniowany przez punkty). Podobnie jak środek, położenie środka ciężkości minimalizuje kwadratową odległość od innych punktów.

Pokrewną ideą jest medoid , czyli punkt danych, który jest „najmniej odmienny” od wszystkich innych punktów danych. W przeciwieństwie do środka ciężkości, medoid musi być jednym z pierwotnych punktów. Może Cię również zainteresować mediana geometryczna, która jest podobna do mediany, ale dla danych wielowymiarowych. Oba różnią się od środka ciężkości.

ABcentroid(A)centroid(B)aiAdist(ai,b1)dist(ai,b2)dist(ai,bn)


W jakich warunkach centroid i medoid są identyczne? A także, dlaczego centroid jest dobrym reprezentantem zbioru punktów?
raikumardipak

@dkr, możesz zadać to pytanie jako nowe pytanie, aby uzyskać więcej (i bardziej szczegółowych) odpowiedzi. To powiedziawszy, różnica sprowadza się do dwóch rzeczy: 1) rzeczy do zminimalizowania (odległość kwadratowa / norma L2 dla środka ciężkości, odległość bezwzględna / norma L1 dla środka) i 2) Czy wyjście może być dowolnym punktem (centroid) lub musi znajdować się w zestawie danych (mediod). Możesz sobie wyobrazić przypadki, w których będą takie same, ale ogólnie nie będą. Środek ciężkości jest „dobry” z tych samych powodów, dla których średnia jest (najmniejsza suma do kwadratu odległość do punktów), a także ma podobne wady (np. Nie jest odporny na wartości odstające).
Matt Krause

4

Powyższa odpowiedź może być niepoprawna. Zobacz ten film: https://www.youtube.com/watch?v=VMyXc3SiEqs Wygląda na to, że średnia sumuje wszystkie kombinacje odległości między elementami klastra 1 i klastra 2 - to znaczy n ^ 2 odległości dodane razem, a następnie dzieli przez n ^ 2 do średniej.

Metoda Centroid najpierw oblicza średnią dla każdego klastra w sobie. Następnie oblicza jedną odległość między tymi średnimi punktami.


1
Cześć Gabe! Myślę, że mówisz o tej części filmu? O ile mi wiadomo, środek ciężkości i średnia pojedynczego skupienia są takie same, ale, jak wskazałeś, odległość środka ciężkości i średnia odległość między dwoma skupieniami są różnymi miarami. Myślałem, że OP pyta o to pierwsze, ale właśnie o nim trochę redagowałem. Dziękujemy za wskazanie tego (+1) i zapraszamy do Cross Validated!
Matt Krause,

-1

centroid jest średnią punktów danych w klastrze, punkt centroidu nie musi występować w zbiorze danych, podczas gdy medoid jest punktem danych bliższym centroidowi, medoid musi występować w oryginalnych danych

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.