W kontekście analizy skupień czystość stanowi zewnętrzne kryterium oceny jakości skupień. Jest to procent całkowitej liczby obiektów (punktów danych), które zostały poprawnie sklasyfikowane, w zakresie jednostek [0..1].
Purity=1N∑i=1kmaxj|ci∩tj|
gdzie N = liczba obiektów (punktów danych), k = liczba klastrów, ci jest klastrem w C , zaś tj jest klasyfikacją, która ma maksymalną liczbę dla klastra ci
Kiedy mówimy „poprawnie”, który zakłada, że każdy klaster ci zidentyfikował grupę obiektów jak do tej samej klasy, że prawda grunt został wskazany. Używamy klasyfikacji ziemia prawdy ti tych obiektów jako miara przypisania poprawności, jednak aby to zrobić musimy wiedzieć, które klaster ci mapuje do zaklasyfikowania ziemia prawdy ti . Gdyby był w 100% dokładny, to każde ci odwzorowałoby dokładnie 1 ti , ale w rzeczywistości nasze cizawiera pewne punkty, których podstawowa prawda sklasyfikowała je jako kilka innych klasyfikacji. Naturalnie to możemy zauważyć, że najwyższa jakość klastrów zostaną uzyskane za pomocą ci do ti odwzorowania, która ma największą liczbę poprawnych klasyfikacji tzn ci∩ti . To jest, gdy The max pochodzi z równania.
Aby obliczyć czystość, najpierw utwórz macierz nieporozumień. Można tego dokonać, zapętlając poszczególne klastry ci licząc, ile obiektów zostało sklasyfikowanych jako każda klasa ti .
| T1 | T2 | T3
---------------------
C1 | 0 | 53 | 10
C2 | 0 | 1 | 60
C3 | 0 | 16 | 0
ci
Purity = (53 + 60 + 16) / 140 = 0.92142