Porównywanie klastrów: Indeks Rand a zmienność informacji

Zastanawiałem się, czy ktokolwiek miałby wgląd lub intuicję za różnicą między zmiennością informacji a indeksem Rand do porównywania klastrów.

Przeczytałem artykuł „ Porównywanie klastrów - odległość oparta na informacjach ” autorstwa Marii Melii (Journal of Multivariate Analysis, 2007), ale poza zauważeniem różnicy w definicjach, nie rozumiem, co to za odmiana informacji przechwytuje, że indeks rand nie przechwytuje.

machine-learning clustering metric

— Amelio Vazquez-Reina
źródło

Różnica między tymi dwiema metodami jest subtelna. Najlepszym sposobem, aby o tym pomyśleć, jest wzięcie pod uwagę sieci zdefiniowanej przez operację scalania-podziału w klastrach. Obie te miary można zrekonstruować, definiując funkcję w klastrowaniu, a następnie określając odległość między dwoma klastrami za pomocą wzoru: $f$

gdzie jest połączeniem dwóch skupień w sieci.

re (do, {do}^{'}) = fa (do) + fa ({do}^{'}) - 2) fa (do \land {do}^{'})

$d(C, C') = f(C) + f(C') - 2f(C \wedge C')$

C \land C^{'}

$C \wedge C'$

Teraz niech i niech . Ustawienie daje indeks rand, a ustawienie daje VI. $C = \{ C_1, C_2, \ldots, C_k\}$ $n_i = |C_i|$ $f(C) = \sum n_i^2$ $f(C) = \sum n_i \log n_i$

— Suresh Venkatasubramanian
źródło

Dzięki Suresh! Czy wiesz, czy (i jak) różnica w tych formułach wyjaśnia, dlaczego indeks rand i odmiana informacji karają spójność (ile jedno z klastrów stanowi podklucz drugiego) między klastrami inaczej? (według odpowiedzi Micansa)

— Amelio Vazquez-Reina

Jak wskazuje micans, Indeks Rand ma zachowanie kwadratowe, więc jest bardziej wrażliwy na zmiany w ograniczeniu niż funkcja entropii, która jest bliska liniowej.

— Suresh Venkatasubramanian

Przepraszam, ale nadal nie widzę, w jaki sposób ograniczenie wpływa na warunki kwadratowe bardziej niż inne rodzaje rozbieżności między klastrami. Czy mógłbyś rozwinąć tę kwestię nieco dalej?

— Amelio Vazquez-Reina

@ user023472 Witaj user023472. Jestem zainteresowany twoimi ustaleniami, wydaje się, że zadałeś to pytanie jakiś czas temu. Czy nauczyłeś się, czym tak naprawdę jest różnica między tymi dwiema metodami? Dzięki.

— Creatron

Moim zdaniem istnieją ogromne różnice. Na wskaźnik Rand duży wpływ ma ziarnistość klastrów, na których działa. W dalszej części wykorzystam odległość Mirkina, która jest skorygowaną formą indeksu Rand (łatwa do zauważenia, ale patrz np. Meila). Wykorzystam również odległość podziału / łączenia, o której wspomniałem również w niektórych artykułach Meili (zastrzeżenie: zaproponowałem odległość podziału / łączenia). Załóżmy, że wszechświat składa się ze stu elementów. Użyję opcji Góra, aby oznaczyć klastrowanie za pomocą pojedynczego klastra zawierającego wszystkie elementy, Dolnej, aby oznaczyć klastrowanie, w której wszystkie węzły znajdują się w osobnych zestawach singletonów, Lewej, aby oznaczyć grupowanie {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} i prawo do oznaczenia grupowania {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}} .

Moim zdaniem, Dół i Góra są spójnymi (zagnieżdżającymi się) klastrami, podczas gdy lewa i prawa są maksymalnie sprzecznymi klastrami. Odległości od wymienionych wskaźników dla tych dwóch porównań par są następujące:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

Wynika z tego, że Mirkin / Rand rozważa spójną parę góra-dół znacznie dalej od siebie niż maksymalnie sprzeczna para lewa-prawa. Jest to skrajny przykład ilustrujący tę kwestię, ale na Mirkin / Rand na ogół bardzo duży wpływ ma ziarnistość klastrów, na których działa. Powodem tego jest kwadratowa zależność między tą metryką a rozmiarem klastra, wyjaśniona faktem, że bierze się pod uwagę liczenie par węzłów. W efekcie odległość Mirkina to odległość Hamminga między zestawami krawędziowymi złączy kompletnych wykresów wywołanych przez skupienia (myślę, że jest to odpowiedź na twoje pytanie).

Jeśli chodzi o różnice między zmiennością informacji a podziałem / łączeniem, pierwsza jest bardziej wrażliwa na pewne sytuacje konfliktowe, jak wykazała Meila. Oznacza to, że podział / łączenie uwzględnia tylko najlepsze dopasowanie dla każdego klastra i ignoruje fragmentację, która może wystąpić w pozostałej części tego klastra, podczas gdy zmienność informacji to wykryje. To powiedziawszy, Split / Join jest łatwo interpretowalny jako liczba węzłów, które należy przenieść, aby uzyskać jeden klaster od drugiego , i w tym sensie jego zasięg jest łatwiejszy do zrozumienia; w praktyce kwestia fragmentacji może również nie być tak powszechna.

Każda z tych miar może być utworzona jako suma dwóch odległości, a mianowicie odległości od każdego z dwóch klastrów do ich największej wspólnej podgrupowania. Uważam, że często korzystna jest praca z tymi oddzielnymi częściami, a nie tylko ich sumą. Powyższa tabela staje się następnie:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

Relacja subskrypcji między górą i dołem staje się natychmiast jasna. Często bardzo przydatna jest wiedza, czy dwa klastry są spójne (tj. Jedno (prawie) jest podgrupą drugiego), jako rozluźnienie pytania, czy są blisko . Grupowanie może być dość odległe od standardu złota, ale nadal być spójne lub prawie spójne. W takim przypadku może nie być żadnego powodu, aby uważać klastrowanie za złe w odniesieniu do tego standardu złota. Oczywiście, trywialne klastry Góra i Dół będą zgodne z każdym klastrowaniem, więc należy to wziąć pod uwagę.

Wreszcie uważam, że takie wskaźniki, jak Mirkin, Zmienność informacji i Podział / Dołącz to naturalne narzędzia do porównywania klastrów. W przypadku większości zastosowań metody, które próbują uwzględnić statystyczną niezależność i skorygować przypadek, są zbyt wymyślone i zaciemniają, a nie wyjaśniają.

Drugi przykład Rozważ następujące pary klastrów: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} z C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

i C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} z {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

Tutaj C2 można utworzyć z C1 poprzez przesunięcie węzłów 9 i 10, a C3 można utworzyć z C3 poprzez przesunięcie węzłów 11 i 12. Obie zmiany są identyczne („przenieś dwa węzły”), z wyjątkiem tego, że rozmiary zaangażowanych klastrów różnią się . Tabela metryk klastrowania dla tych dwóch przykładów jest następująca:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

Można zauważyć, że na rozmiary klastra wpływ mają Mirkin / Rand i zmienność informacji (i w większym stopniu Mirkin; będzie to bardziej wyraźne, gdy rozmiary klastra będą się różnić), podczas gdy odległość podziału / łączenia nie jest (jego wartość wynosi 4 ponieważ „przenosi” węzły z jednego klastra do drugiego zawsze za pośrednictwem największej wspólnej podgrupowania). W zależności od okoliczności może to być pożądana cecha. Warto pamiętać o prostej interpretacji podziału / łączenia (liczby węzłów do przeniesienia) i jej niezależności od wielkości klastra. Pomiędzy Mirkinem a odmianą informacji myślę, że ta ostatnia jest zdecydowanie lepsza.

— micans
źródło

Dzięki micans, to jest bardzo wnikliwe. Nie jestem pewien, czy zrozumiałem drugi stół. Dlaczego dla każdej pozycji w tabeli są dwie liczby oddzielone przecinkiem? Czy wiesz też, jak ten argument odnosi się do @ Suresha?

— Amelio Vazquez-Reina

Jeśli A i B są klastrami, to d (A, B) można podzielić jako d (A, B) = d (A, X) + d (B, X), gdzie X jest największym skupieniem, które jest podgrupą obie. W notacji Suresha mamy d (A, B) = f (A) + f (B) -2f (X). Można to przepisać jako f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X). Powyżej napisałem dwa składniki d (A, X) i d (B, X) oddzielone przecinkami. Największą różnicą między nimi jest zdecydowanie kwadratowa charakterystyka Mirkin / Rand. Jeśli spojrzymy na przykłady Góra / Dół i Lewo / Prawo, odległość od góry do dołu jest ogromna; dzieje się tak całkowicie ze względu na rozmiar góry.

— micans