Jaki jest najlepszy sposób, aby wyjaśnić, dlaczego jest nie dobry środek, powiedzmy, w porównaniu do F1?
Jaki jest najlepszy sposób, aby wyjaśnić, dlaczego jest nie dobry środek, powiedzmy, w porównaniu do F1?
Odpowiedzi:
Nie jest tak, że jest złym miernikiem per se, po prostu że wynikowa liczba sama w sobie nie ma żadnego znaczenia. Jesteś na dobrej drodze ... to, czego szukamy, to łączna, średnia z dwóch miar wydajności, ponieważ nie chcemy wybierać między nimi.
Przypomnij sobie, że precyzja i wycofanie są zdefiniowane jako:
przywołanie=prawdziwie pozytywne
Ponieważ oba mają różne mianowniki, dodanie ich razem daje w wyniku coś takiego: ... co nie jest szczególnie przydatne.
Wróćmy do dodawania ich razem i poprawiania: pomnóż je przez , aby pozostały we właściwej skali, . To bierze znaną średnią z nich. [0-1]
Mamy więc dwie wielkości, które mają ten sam licznik, ale różne mianowniki i chcielibyśmy wziąć ich średnią. Co robimy? Cóż, moglibyśmy je odwrócić, wziąć ich odwrotność. Następnie możesz dodać je razem. Tak więc są „prawą stroną do góry”, ponownie odwróć.
Ten proces odwracania, a następnie odwracania ponownie zamienia „zwykły” środek w harmoniczny. Tak się składa, że harmoniczną średnią precyzji i przywołania jest statystyka F1. Średnia harmoniczna jest zwykle stosowana zamiast standardowej średniej arytmetycznej w przypadku stawek, ponieważ my tutaj jesteśmy.
Ostatecznie statystyka F1 jest tylko średnią precyzji i przywołania, a używasz jej, ponieważ nie chcesz wybierać jednego lub drugiego do oceny wydajności modelu.
Krótka odpowiedź brzmi: nie spodziewałbyś się, że sumowanie dwóch wartości procentowych, które mają dwa różne mianowniki, ma jakieś szczególne znaczenie. Stąd podejście do podjęcia średniej miary, takiej jak F1, F2 lub F0.5. Te ostatnie zachowują przynajmniej właściwość procentową. A co z ich znaczeniem?
Piękno Precyzji i Odwołania jako oddzielnych miar polega na łatwości interpretacji i na tym, że można je łatwo skonfrontować z celami biznesowymi modelu. Precyzja mierzy odsetek true positives
spośród przypadków sklasyfikowanych positive
według modelu. Wycofanie mierzy odsetek true positives
znalezionych przez model ze wszystkich true
przypadków. W przypadku wielu problemów będziesz musiał wybrać między optymalizacją albo Precyzja, albo przywołanie.
Każda średnia miara traci powyższą interpretację i sprowadza się do tego, który wolisz najbardziej. F1 oznacza, że albo nie wiesz, czy wolisz Recall, czy Precision, czy przypisujesz jednakową wagę każdemu z nich. Jeśli uważasz, że Przypomnienie jest ważniejsze niż Precyzja, powinieneś także przypisać mu większą wagę w obliczeniach średnich (np. F2) i odwrotnie (np. F0,5).
Dodanie dwóch jest złym środkiem. Otrzymasz wynik co najmniej 1, jeśli oznaczysz wszystko jako pozytywne, ponieważ jest to 100% wycofanie z definicji. A do tego dostaniesz niewielką precyzję. Średnia geometryczna zastosowana w F1 podkreśla słabe ogniwo, ponieważ jest multiplikatywne; musisz przynajmniej dobrze sobie radzić z precyzją i wycofaniem, aby uzyskać przyzwoity wynik w F1.
Wynik F1 jest szczególnie cenny w przypadku wysoce asymetrycznych prawdopodobieństw.
Rozważ następujący przykład: testujemy na rzadką, ale niebezpieczną chorobę. Załóżmy, że w mieście 1 000 000 ludzi zarażonych jest tylko 100 osób.
Test A wykrywa wszystkie te 100 pozytywów. Jednak ma również 50% odsetek wyników fałszywie dodatnich: błędnie pokazuje kolejne 500 000 osób chorych.
Tymczasem test B pomija 10% zainfekowanych, ale daje tylko 1000 fałszywie pozytywnych wyników (0,1% fałszywie pozytywnych wyników)
Obliczmy wyniki. W przypadku testu A precyzja będzie wynosić 0; przywołanie wyniesie dokładnie 1. Dla testu B precyzja nadal będzie raczej niewielka, około 0,01. Wycofanie będzie równe 0,9.
Jeśli naiwnie sumujemy lub bierzemy średnią arytmetyczną precyzji i przywołania, daje to 1 (0,5) dla testu A i 0,91 (0,455) dla testu B. Zatem test A wydaje się nieznacznie lepszy.
Jeśli jednak spojrzymy z praktycznego punktu widzenia, test A jest bezwartościowy: jeśli dana osoba jest pozytywnie przetestowana, jego szansa na prawdziwą chorobę wynosi 1 na 50 000! Test B ma bardziej praktyczne znaczenie: możesz zabrać 1.100 osób do szpitala i uważnie ich obserwować. Jest to dokładnie odzwierciedlone w wyniku F1: dla testu A będzie on bliski 0,0002, dla testu B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, co jest nadal dość słabe, ale około 50 razy lepsze.
To dopasowanie wartości wyniku do znaczenia praktycznego sprawia, że wynik F1 jest cenny.
Ogólnie, maksymalizacja średniej geometrycznej podkreśla podobne wartości. Weźmy na przykład dwa modele: pierwszy ma (precyzja, przywołanie) = (0,8; 0,8), a drugi ma (precyzja, przywołanie) = (0,6; 1,0). Używając średniej algebraicznej, oba modele byłyby równoważne. Korzystając ze średniej geometrycznej, pierwszy model jest lepszy, ponieważ nie wymienia precyzji na przywołanie.