Obecnie używam kilku różnych klasyfikatorów na różnych jednostkach wyodrębnionych z tekstu i używam precyzji / przywołania jako podsumowania tego, jak dobrze każdy oddzielny klasyfikator działa w danym zestawie danych.
Zastanawiam się, czy istnieje sensowny sposób porównywania wydajności tych klasyfikatorów w podobny sposób, ale który bierze również pod uwagę całkowitą liczbę każdego elementu w klasyfikowanych danych testowych?
Obecnie używam precyzji / przypomnienia jako miary wydajności, więc może mieć coś takiego:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Jednak zestaw danych, na którym je uruchamiam, może zawierać 100 000 osób, 5 000 firm, 500 serów i 1 jajko.
Czy istnieje więc podsumowująca statystyka, którą mogę dodać do powyższej tabeli, która uwzględnia również całkowitą liczbę każdego elementu? Czy jest jakiś sposób zmierzenia faktu, że np. 100% prec / rec na klasyfikatorze jaja może nie mieć znaczenia przy tylko 1 pozycji danych?
Załóżmy, że mieliśmy setki takich klasyfikatorów. Myślę, że szukam dobrego sposobu na udzielenie odpowiedzi na pytania: „Które klasyfikatory osiągają gorsze wyniki? Które klasyfikatory nie mają wystarczających danych testowych, aby stwierdzić, czy osiągają gorsze wyniki”.