Jak interpretować wartości pomiaru F?


41

Chciałbym wiedzieć, jak interpretować różnicę wartości miary. Wiem, że miara f jest zrównoważonym środkiem między precyzją a pamięcią, ale pytam o praktyczne znaczenie różnicy w miarach F.

Na przykład, jeśli klasyfikator C1 ma dokładność 0,4, a inny klasyfikator C2 dokładność 0,8, wówczas możemy powiedzieć, że C2 poprawnie sklasyfikował podwójność przykładów testowych w porównaniu do C1. Jeśli jednak klasyfikator C1 ma miarę F 0,4 dla pewnej klasy, a inny klasyfikator C2 miarę F 0,8, co możemy powiedzieć o różnicy w wydajności dwóch klasyfikatorów? Czy możemy powiedzieć, że C2 poprawnie zaklasyfikowało X więcej wystąpień niż C1?


2
Nie jestem pewien, czy możesz wiele powiedzieć, ponieważ miara F jest funkcją zarówno precyzji, jak i przywołania: en.wikipedia.org/wiki/F1_score . Możesz jednak wykonywać matematykę i utrzymywać jedną (precyzję lub pamięć) na stałym poziomie i mówić coś o drugiej.
Nick

Odpowiedzi:


41

Nie mogę wymyślić intuicyjnego znaczenia miary F, ponieważ jest to po prostu połączona metryka. Oczywiście bardziej intuicyjna niż F-mesure jest precyzja i przywołanie.

Jednak przy użyciu dwóch wartości często nie możemy ustalić, czy jeden algorytm jest lepszy od drugiego. Na przykład, jeśli jeden algorytm ma wyższą precyzję, ale mniejszą pamięć wywoływania niż inny, w jaki sposób można stwierdzić, który algorytm jest lepszy?

Jeśli masz konkretny cel, taki jak „Precyzja jest królem. Nie przejmuję się zbytnio pamięcią ”, to nie ma problemu. Większa precyzja jest lepsza. Ale jeśli nie masz tak silnego celu, będziesz potrzebować połączonych danych. To miara F. Korzystając z niego, porównasz niektóre precyzyjne i niektóre przypominające.

Krzywa ROC jest często rysowana z podaniem miary F. Ten artykuł może Cię zainteresować, ponieważ zawiera wyjaśnienie kilku miar, w tym krzywych ROC: http://binf.gmu.edu/mmasso/ROC101.pdf


23

Znaczenie wyniku F1 jest różne w zależności od scenariusza. Załóżmy, że zmienna docelowa jest etykietą binarną.

  • Zrównoważona klasa: w tej sytuacji wynik F1 można skutecznie zignorować, kluczem jest niewłaściwa klasyfikacja.
  • Niezbilansowana klasa, ale obie klasy są ważne: jeśli rozkład klas jest mocno wypaczony (np. 80:20 lub 90:10), wówczas klasyfikator może uzyskać niski współczynnik błędnej klasyfikacji po prostu wybierając klasę większościową. W takiej sytuacji wybrałbym klasyfikator, który uzyska wysokie wyniki F1 w obu klasach, a także niski wskaźnik błędnej klasyfikacji. Klasyfikator, który ma niskie wyniki F1, powinien zostać przeoczony.
  • Niezrównoważona klasa, ale jedna klasa, jeśli ważniejsza niż druga. Na przykład w wykrywaniu oszustw ważniejsze jest prawidłowe oznaczenie instancji jako oszukańczej, w przeciwieństwie do oznaczenia oszukańczej. W takim przypadku wybrałbym klasyfikatora, który ma dobry wynik F1 tylko w ważnej klasie . Przypomnij sobie, że wynik F1 jest dostępny dla każdej klasy.

9

Miara F ma intuicyjne znaczenie. Informuje o tym, jak precyzyjny jest twój klasyfikator (ile instancji poprawnie klasyfikuje), a także jak solidny jest (nie brakuje znacznej liczby instancji).

Z wysoką precyzją, ale niskim poziomem przywołania, twój klasyfikator jest niezwykle dokładny, ale brakuje mu znacznej liczby przypadków, które są trudne do sklasyfikowania. To nie jest bardzo przydatne.

Spójrz na ten histogram. wprowadź opis zdjęcia tutajZignoruj ​​swój pierwotny cel.

W prawo, otrzymujesz wysoką precyzję, ale niskie wycofanie. Jeśli wybiorę tylko instancje z wynikiem powyżej 0,9, moje sklasyfikowane instancje będą wyjątkowo precyzyjne, jednak przegapię znaczną liczbę instancji. Eksperymenty wskazują, że tutaj najsłabszy punkt wynosi około 0,76, a miara F wynosi 0,87.


5

Miara F jest średnią harmoniczną twojej precyzji i przywołania. W większości sytuacji istnieje kompromis między precyzją a wycofaniem. Jeśli zoptymalizujesz swój klasyfikator, aby zwiększyć jeden, a niekorzystny dla drugiego, średnia harmonicznych szybko spadnie. Jest jednak największy, gdy zarówno precyzja, jak i przywołanie są równe.

Biorąc pod uwagę miary F wynoszące 0,4 i 0,8 dla klasyfikatorów, można oczekiwać, że tam, gdzie osiągnięto maksymalne wartości przy porównywaniu precyzji z wycofywaniem.

W celach wizualnych spójrz na ten rysunek z Wikipedii :

wprowadź opis zdjęcia tutaj

Miara F to H , A i B to przywołanie i precyzja. Możesz zwiększyć jeden, ale potem drugi maleje.


Przekonałem się, że wizualizacja „Skrzyżowanych drabin” jest nieco prostsza - dla mnie sprawia, że ​​równość A = B powoduje, że największe H jest bardziej intuicyjne
Coruscate5

3

Wzór na miarę F (F1, przy beta = 1) jest taki sam, jak wzór dający równoważny opór złożony z dwóch rezystancji umieszczonych równolegle w fizyce (zapominając o współczynniku 2).

To może dać ci możliwą interpretację i możesz pomyśleć zarówno o oporności elektronicznej, jak i termicznej. Ta analogia zdefiniowałaby pomiar F jako równoważny opór utworzony przez czułość i precyzję ustawione równolegle.

Dla miary F maksymalna możliwa wartość to 1, a ty tracisz opór, gdy tylko jeden z dwóch traci opór (to znaczy, powiedz, uzyskaj wartość poniżej 1). Jeśli chcesz lepiej zrozumieć tę ilość i jej dynamikę, pomyśl o zjawisku fizycznym. Na przykład wydaje się, że miara F <= maks. (Czułość, precyzja).


3

Fβ1/β2

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2

1

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/p)
p F ββ2<1pFβ ).

0

Najbliższe intuicyjne znaczenie wyniku f1 jest postrzegane jako średnia przywołania i precyzji. Wyczyśćmy to dla ciebie:

W przypadku zadania klasyfikacyjnego być może planujesz zbudować klasyfikator z wysoką precyzją ORAZ przywoływaniem. Na przykład klasyfikator, który mówi, czy dana osoba jest uczciwa, czy nie.

Aby uzyskać precyzję, zazwyczaj możesz dokładnie powiedzieć, ile uczciwych ludzi jest w danej grupie. W tym przypadku, dbając o wysoką precyzję, zakładasz, że możesz błędnie zaklasyfikować kłamcę jako uczciwego, ale nie często. Innymi słowy, tutaj próbujesz zidentyfikować kłamcę ze szczerości jako całą grupę.

Przypomnijmy jednak, że naprawdę martwisz się, jeśli uważasz, że kłamca jest szczery. Dla ciebie będzie to wielka strata i duży błąd i nie chcesz tego więcej robić. Jest również w porządku, jeśli sklasyfikujesz kogoś uczciwego jako kłamcę, ale twój model nigdy nie powinien (lub przeważnie nie powinien) twierdzić, że kłamca jest uczciwy. Innymi słowy, tutaj skupiasz się na konkretnej klasie i starasz się nie pomylić z tym.

Weźmy teraz przypadek, w którym chcesz, aby Twój model (1) precyzyjnie identyfikował uczciwego od kłamcy (precyzja) (2) identyfikował każdą osobę z obu klas (przypomnij). Co oznacza, że ​​wybierzesz model, który będzie działał dobrze w obu metrykach.

Podejmując decyzję o wyborze modelu, spróbujesz ocenić każdy model na podstawie średniej z dwóch wskaźników. Wynik F jest najlepszym, który może to opisać. Rzućmy okiem na wzór:

Przypomnij: p = tp / (tp + fp)

Przypomnij: r = tp / (tp + fn)

Wynik F: fscore = 2 / (1 / r + 1 / p)

Jak widać, im wyższa pamięć ORAZ precyzja, tym wyższy wynik F.


0

Wiedząc, że wynik F1 jest harmoniczną metodą precyzji i przypomnienia, poniżej znajduje się krótki opis na ich temat.

Powiedziałbym, że Recall to bardziej fałszywe negatywy. Tj. Wyższe Recall oznacza mniej FALSE NEGATYWÓW .

Recall=tptp+fn

O ile oznacza mniej FN lub zero FN, twoje przewidywania modelu są naprawdę dobre.

Podczas gdy mając większą precyzję, jest mniej FALSE POSITIVES

Precision=tptp+fp

To samo tutaj, mniej lub zero fałszywych trafień oznacza, że ​​przewidywanie modelu jest naprawdę dobre.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.