Przyszło mi do głowy kilka możliwości.
Spojrzenie na ogólny wskaźnik trafień zwykle nie jest zbyt dobrym pomysłem, ponieważ będzie zależeć od składu zestawu testowego, jeśli wyniki dla różnych klas będą się różnić. Przynajmniej powinieneś określić (i uzasadnić) względną częstotliwość klas w danych testowych, aby uzyskać znaczącą wartość.
Po drugie, jak już powiedział @Shorack, określ, jakie rodzaje błędów są ważne. Często klasyfikator musi spełniać określone kryteria wydajności, aby był użyteczny (a ogólna dokładność rzadko jest odpowiednią miarą). Istnieją miary, takie jak wrażliwość, swoistość, dodatnia i ujemna wartość predykcyjna, które uwzględniają różne klasy i różne rodzaje błędnej klasyfikacji. Można powiedzieć, że te środki odpowiadają na różne pytania dotyczące klasyfikatora:
- wrażliwość: Jaką część przypadków rzeczywiście należących do klasy C uznaje się za taką?
- Specyfika: Jaki ułamek przypadków naprawdę nie należące do klasy C jest rozpoznawany jako taki?
- dodatnia wartość predykcyjna: biorąc pod uwagę, że klasyfikator przewiduje klasę C, jakie jest prawdopodobieństwo, że ta prognoza jest poprawna?
- ujemna wartość predykcyjna: Biorąc pod uwagę, że klasyfikator przewiduje, że przypadek nie jest z klasy C, jakie jest prawdopodobieństwo, że ta prognoza jest poprawna?
Pytania te często pozwalają sformułować specyfikacje, których klasyfikator musi potrzebować, aby był użyteczny.
Wartości predykcyjne są często ważniejsze z punktu widzenia praktycznego zastosowania klasyfikatora: są uwarunkowane przewidywaniem, czyli sytuacją, w której się znajdujesz przy stosowaniu klasyfikatora (pacjent zwykle nie jest zainteresowany tym, jak prawdopodobne jest test ma na celu rozpoznanie chorych przypadków, ale raczej prawdopodobieństwo stwierdzenia prawidłowej diagnozy). Jednak, aby je poprawnie obliczyć, musisz znać względne częstotliwości różnych klas w populacji, w której jest używany klasyfikator (wygląda na to, że masz tę informację - więc nic nie stoi na przeszkodzie, aby na to spojrzeć).
Możesz także spojrzeć na zysk informacyjny, jaki daje dodatnia lub ujemna prognoza. Mierzy się to dodatnim i ujemnym współczynnikiem wiarygodności, LR⁺ i LR⁻. Krótko mówiąc, mówią ci, jak bardzo prognoza zmienia szanse na daną klasę. (zobacz moją odpowiedź tutaj, aby uzyskać bardziej szczegółowe wyjaśnienie)
W przypadku trywialnego klasyfikatora rzeczy wyglądają następująco: użyję klasy „0” jako klasy, o której mowa, więc „dodatnia” oznacza klasę „0”. Na 100 przypadków 100 jest przewidywanych pozytywnych (należących do klasy 0). 97 z nich naprawdę, 3 nie. Czułość dla klasy 0 wynosi 100% (rozpoznano wszystkie 97 przypadków rzeczywiście należących do klasy 0), swoistość wynosi 0 (nie rozpoznano żadnego z pozostałych przypadków). dodatnia wartość predykcyjna (przy założeniu, że częstotliwość względna 97: 3 jest reprezentatywna) wynosi 97%, ujemnej wartości predykcyjnej nie można obliczyć, ponieważ nie wystąpiły prognozy ujemne.
LR+=sensitivity1−specificity=1
LR−=1−sensitivityspecificity=00
Teraz LR⁺ i LR⁻ są czynnikami, przez które mnożymy szanse, że skrzynka należy do klasy dodatniej („0”). Posiadanie LR⁺ równego 1 oznacza, że pozytywne przewidywanie nie podało żadnych informacji: nie zmieni szans. Oto więc miara, która wyraźnie wyraża fakt, że twój trywialny klasyfikator nie dodaje żadnych informacji .
Zupełnie inny kierunek myślenia: wspominasz, że chcesz oceniać różne klasyfikatory. To brzmi trochę jak porównanie lub wybór klasyfikatora. Zastrzeżenie dotyczące środków, które omawiam powyżej, polega na tym, że podlegają bardzo wysokiej losowej niepewności (co oznacza, że potrzebujesz wielu przypadków testowych), jeśli ocenisz je na „twardych” etykietach klasy. Jeśli twoje przewidywania są przede wszystkim ciągłe (metryczne, np. Prawdopodobieństwo tylne), możesz użyć powiązanych miar, które dotyczą tego samego rodzaju pytania, ale nie używaj ułamków przypadków, ale ciągłe miary, zobacz tutaj . Będą one również lepiej dostosowane do wykrywania niewielkich różnic w prognozach.
(@FrankHarrell powie ci, że potrzebujesz „odpowiednich reguł punktacji”, więc to kolejny termin do zapamiętania.)