Próbuję wymyślić, jak obliczyć Indeks Rand algorytmu klastra, ale utknąłem w punkcie, w jaki sposób obliczyć prawdziwe i fałszywe negatywy.
W tej chwili korzystam z przykładu z książki An Introduction to Information Retrieval (Manning, Raghavan & Schütze, 2009). Na stronie 359 mówią o tym, jak obliczyć indeks Rand. W tym przykładzie używają trzech klastrów, a klastry zawierają następujące obiekty.
- aaaaab
- abbbbc
- aaccc
Zamieniam przedmiot (oryginalne znaki na litery, ale idea i liczba pozostają takie same). Podam dokładne słowa z książki, aby zobaczyć, o czym mówią:
Najpierw obliczamy TP + FP. Trzy klastry zawierają odpowiednio 6, 6 i 5 punktów, więc łączna liczba „pozytywów” lub par dokumentów znajdujących się w tym samym klastrze wynosi:
TP + FP = + + = 15 + 15+ 10 = 40
Spośród nich pary w grupie 1, pary b w grupie 2, pary c w grupie 3 i para w grupie 3 są prawdziwie pozytywne:
TP = + + + = 10 + 6 + 3 + 1 = 20
Zatem FP = 40-20 = 20.
Do tego czasu obliczenia są jasne, a jeśli wezmę inne przykłady, otrzymam te same wyniki, ale kiedy chcę obliczyć fałszywie ujemny i prawdziwie negatywny Manning i in. podać następujące informacje:
FN i TN są obliczane podobnie, co daje następującą tabelę zdarzeń:
Tabela awaryjna wygląda następująco:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
Zdanie: „FN i TN są obliczane podobnie” nie jest dla mnie jasne i nie rozumiem, które liczby potrzebuję do obliczenia TN i FN. Mogę obliczyć prawą stronę tabeli, wykonując następujące czynności:
TP + FP + FN + TN = = = 136
Źródło: http://en.wikipedia.org/wiki/Rand_index
Zatem FN + TN = 136 - TP + FP = 136 - 40 = 96, ale tak naprawdę nie pomaga mi to w samodzielnym obliczeniu sposobu obliczania zmiennych. Zwłaszcza gdy autorzy mówią: „FN i TN są obliczane podobnie”. Nie rozumiem jak. Również gdy patrzę na inne przykłady, obliczają każdą komórkę tabeli awaryjnej, patrząc na każdą parę.
Na przykład: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Moje pierwsze pytanie, oparte na przykładzie Manninga i in. (2009), czy można obliczyć TN i FN, jeśli znasz tylko TP i NP? A jeśli tak, to jak wygląda podobne obliczenie na podstawie podanego przykładu?