Chociaż dwie miary statystyczne są prawdopodobnie skorelowane, mierzą różne cechy klasyfikatora.
AUROC
Pole pod krzywą (AUC) jest równe prawdopodobieństwu, że klasyfikator uszereguje losowo wybrany pozytywny przypadek wyżej niż losowo wybrany negatywny przykład. Mierzy umiejętność klasyfikatorów w szeregowaniu zestawu wzorców według stopnia, w jakim należą one do klasy dodatniej, ale bez faktycznego przypisywania wzorców do klas.
Ogólna dokładność zależy również od zdolności klasyfikatora do uszeregowania wzorców, ale także od jego zdolności do wybrania progu w rankingu stosowanego do przypisania wzorców do klasy dodatniej, jeśli jest powyżej progu, i do klasy ujemnej, jeśli poniżej.
Zatem klasyfikator z wyższą statystyką AUROC (wszystkie rzeczy są równe) może również mieć wyższą ogólną dokładność, ponieważ ranking wzorców (który mierzy AUROC) jest korzystny zarówno dla AUROC, jak i ogólnej dokładności. Jeśli jednak jeden klasyfikator szereguje wzorce dobrze, ale źle wybiera próg, może mieć wysoką wartość AUROC, ale słabą ogólną dokładność.
Praktyczne użycie
W praktyce lubię zbierać ogólną dokładność, AUROC i jeśli klasyfikator ocenia prawdopodobieństwo członkostwa w klasie, entropię krzyżową lub informacje predykcyjne. Następnie mam metrykę, która mierzy jego surową zdolność do przeprowadzenia twardej klasyfikacji (zakładając, że fałszywie dodatnie i fałszywie ujemne koszty błędnej klasyfikacji są równe, a częstotliwości klasowe w próbce są takie same jak w użyciu operacyjnym - duże założenie!), metryka mierząca zdolność rangowania wzorców oraz metryka mierząca, jak dobrze skalibrowany jest ranking jako prawdopodobieństwo.
W przypadku wielu zadań koszty błędnej klasyfikacji operacyjnej są nieznane lub zmienne, lub częstotliwości klas operacyjnych są inne niż w próbie szkoleniowej lub są zmienne. W takim przypadku ogólna dokładność jest często dość nieistotna, a AUROC jest lepszym wskaźnikiem wydajności i idealnie chcemy klasyfikatora, który generuje dobrze skalibrowane prawdopodobieństwa, abyśmy mogli zrekompensować te problemy w użyciu operacyjnym. Zasadniczo, która metryka jest ważna, zależy od problemu, który próbujemy rozwiązać.