Dla takich statystycznych statystów jak ja bardzo trudno jest uchwycić ideę VI
metryki (zmienności informacji) nawet po przeczytaniu odpowiedniego artykułu Marina Melii „ Porównywanie klastrów - odległość oparta na informacjach ” (Journal of Multivariate Analysis, 2007). W rzeczywistości nie znam wielu warunków klastrowania.
Poniżej znajduje się MWE i chciałbym wiedzieć, co oznacza wynik w różnych zastosowanych wskaźnikach. Mam te dwa klastry w R i w tej samej kolejności id:
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
Teraz dokonujemy porównań na podstawie, VI
jak również innych wskaźników / wskaźników oraz w porządku chronologicznym ich pojawiania się w literaturze.
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
Jak widać, VI
wartość była różna od wszystkich pozostałych.
- Co mówi ta wartość (i jak jest powiązana z poniższym rysunkiem)?
- Jakie są wytyczne dotyczące uznania tej wartości za niską lub wysoką?
- Czy zdefiniowano jakieś wytyczne?
Może eksperci w tej dziedzinie mogą podać sensowne opisy dla laików takich jak ja, próbując zgłosić takie wyniki. Byłbym naprawdę wdzięczny, gdyby ktoś dostarczył również wytyczne dla innych wskaźników (kiedy wziąć pod uwagę, że wartość jest duża lub mała, tj. W odniesieniu do podobieństwa między dwoma klastrami).
Czytałem powiązane wątki CV tu i tutaj , ale wciąż nie mogłem pojąć intuicji VI
. Czy ktoś może to wytłumaczyć zwykłym angielskim?
Poniższy rysunek przedstawia rycinę 2 z wyżej wspomnianego artykułu VI
.