Technicznie, aby obliczyć miarę dis (podobieństwa) między jednostkami na atrybutach nominalnych, większość programów najpierw przekodowuje każdą zmienną nominalną na zbiór fałszywych zmiennych binarnych, a następnie oblicza pewną miarę dla zmiennych binarnych. Oto wzory niektórych często używanych binarnych miar podobieństwa i odmienności .
Co to są zmienne obojętne (zwane także „gorącymi”)? Poniżej znajduje się 5 osób, dwie zmienne nominalne (A z 3 kategoriami, B z 2 kategoriami). 3 manekiny utworzone w miejsce A, 2 manekiny utworzone w miejsce B.
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(Nie ma potrzeby eliminowania jednej zmiennej fikcyjnej jako „nadmiarowej”, ponieważ zwykle robilibyśmy to w regresji z manekinami. Nie jest to praktykowane w grupowaniu, aczkolwiek w szczególnych sytuacjach możesz rozważyć tę opcję.)
Istnieje wiele środków dla zmiennych binarnych, jednak nie wszystkie z nich logicznie garnitur manekin zmiennych binarnych, czyli dawnych tych nominalnych. Widzisz, dla zmiennej nominalnej fakt, że „dwie osoby pasują do siebie” oraz fakt, że „dwie osoby nie pasują do siebie” są równie ważne. Ale pod popularną Jaccard miara , gdziezaa + b + c
- a - liczba manekinów 1 dla obu osób
- b - liczba manekinów 1 za to i 0 za to
- c - liczba manekinów 0 za to i 1 za to
- d - liczba manekinów 0 dla obu
bdozaza2 a2 a + b + cdystans. Zobacz, ile synonimów - na pewno znajdziesz coś takiego w swoim oprogramowaniu!
Intuicyjna poprawność współczynnika podobieństwa kości wynika z faktu, że jest to po prostu proporcja współwystępowania (lub względna zgodność ). Dla powyższego fragmentu danych weź kolumnę nominalną A
i oblicz 5x5
kwadratową macierz symetryczną z albo 1
(obie osoby należą do tej samej kategorii) albo 0
(nie do tej samej kategorii). Oblicz podobnie macierz B
.
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
Zsumuj odpowiednie wpisy dwóch macierzy i podziel przez 2 (liczbę zmiennych nominalnych) - oto macierz współczynników kości. (Tak więc właściwie nie musisz tworzyć manekinów do obliczania kości, dzięki operacjom macierzowym możesz prawdopodobnie zrobić to szybciej w sposób opisany powyżej . ) Zobacz pokrewny temat na kościach, aby uzyskać informacje na temat przypisywania atrybutów nominalnych .
Chociaż kości są najbardziej widoczną miarą, którą należy zastosować, gdy potrzebna jest (nie) funkcja podobieństwa między przypadkami, gdy atrybuty są kategoryczne, można zastosować inne miary binarne - jeśli ich formuła spełni wymagania dotyczące twoich nominalnych danych.
a + da + b + c + drereb + crere2)= p ( 1 - SM.)p
Ale ...
re
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
Ponieważ w wielu zastosowaniach macierzy zbliżeniowej, takich jak wiele metod analizy skupień, wyniki nie zmienią się lub zmienią płynnie pod liniową (a czasem nawet monotoniczną) transformacją bliskości, wydaje się, że uzasadnione jest wiele środki binarne oprócz kości, aby uzyskać takie same lub podobne wyniki. Ale najpierw należy rozważyć / zbadać, w jaki sposób konkretna metoda (na przykład powiązanie w hierarchicznym klastrowaniu) reaguje na daną transformację bliskości.
Jeśli planowana analiza skupień lub analiza MDS jest wrażliwa na monotoniczne transformacje odległości, lepiej powstrzymaj się od stosowania miar oznaczonych jako „monotoniczne” w powyższej tabeli (a zatem tak, nie jest dobrym pomysłem stosowanie podobieństwa Jaccarda lub niekwadowanej odległości euklidesowej z manekinem , tj. poprzednie nominalne, atrybuty).