Dlaczego F-Measure jest średnią harmoniczną, a nie średnią arytmetyczną miar Precision i Recall?


86

Kiedy obliczamy F-Measure biorąc pod uwagę zarówno Precyzja, jak i Przypomnienie, bierzemy średnią harmoniczną obu miar zamiast prostej średniej arytmetycznej.

Jaki jest intuicyjny powód przyjmowania średniej harmonicznej, a nie prostej średniej?


1
Intuicja polega na tym, aby zrównoważyć precyzję i przypominanie (zwykle najlepszy pomiar, ale w niektórych przypadkach chcesz zmaksymalizować precyzję lub przypomnieć, co to inna historia). Nie można uzyskać wysokiego wyniku f, jeśli którykolwiek z nich jest bardzo niski.
Greeness

1
cse.unsw.edu.au/~teachadmin/info/harmonic3.html To jest dobre źródło zrozumienia HM
Sudip Bhandari

2
Napraw powyższy link: di.unipi.it/~bozzo/The%20Harmonic%20Mean.htm lub oryginał @ archive.org
stason

Odpowiedzi:


16

Tutaj mamy już kilka rozbudowanych odpowiedzi, ale pomyślałem, że trochę więcej informacji na ten temat byłoby pomocnych dla niektórych facetów, którzy chcą zagłębić się głębiej (szczególnie dlaczego miara F).

Zgodnie z teorią pomiaru miara złożona powinna spełniać 6 następujących definicji:

  1. Spójność (można zamówić dwie pary) i przechodniość (jeśli e1> = e2 i e2> = e3, to e1> = e3)
  2. Niezależność: dwa składniki niezależnie wpływają na skuteczność.
  3. Warunek Thomsena: biorąc pod uwagę, że przy stałej czułości (precyzji) znajdujemy różnicę w skuteczności dla dwóch wartości dokładności (przypominania), różnica ta nie może zostać usunięta ani odwrócona przez zmianę wartości stałej.
  4. Ograniczona wypłacalność.
  5. Każdy składnik jest niezbędny: zmienność jednego, pozostawiając niezmienną drugą, daje zmienność skuteczności.
  6. Właściwość Archimedesa dla każdego komponentu. Zapewnia jedynie porównywalność interwałów na komponencie.

Następnie możemy wyprowadzić i otrzymać funkcję skuteczności: wprowadź opis obrazu tutaj

Zwykle nie używamy skuteczności, ale znacznie prostszy wynik F, ponieważ :
wprowadź opis obrazu tutaj

Teraz, gdy mamy ogólny wzór miary F:

wprowadź opis obrazu tutaj

gdzie możemy położyć większy nacisk na przypominanie lub precyzję, ustawiając beta, ponieważ beta jest zdefiniowana w następujący sposób:

wprowadź opis obrazu tutaj

Jeśli przypomnimy sobie wagę ważniejszą niż precyzja (wszystkie istotne są zaznaczone), możemy ustawić beta na 2 i otrzymamy miarę F2. A jeśli wykonamy odwrotną i ważoną dokładność wyższą niż przywołanie (jak najwięcej wybranych elementów jest istotnych, na przykład w niektórych scenariuszach korekcji błędów gramatycznych, takich jak CoNLL ), po prostu ustawiamy beta na 0,5 i otrzymujemy miarę F0,5. I oczywiście możemy ustawić beta na 1, aby uzyskać najczęściej używaną miarę F1 (średnia harmoniczna precyzji i zapamiętania).

Myślę, że do pewnego stopnia już odpowiedziałem, dlaczego nie używamy średniej arytmetycznej.

Bibliografia:

  1. https://en.wikipedia.org/wiki/F1_score
  2. Prawda miary F.
  3. Wyszukiwanie informacji

99

Aby wyjaśnić, rozważmy na przykład, jaka jest średnia prędkość 30 mil na godzinę i 40 mil na godzinę? jeśli jeździsz przez 1 godzinę z każdą prędkością, średnia prędkość w ciągu 2 godzin jest rzeczywiście średnią arytmetyczną, 35 mil na godzinę.

Jeśli jednak jedziesz na tym samym dystansie z każdą prędkością - powiedzmy 10 mil - to średnia prędkość powyżej 20 mil jest średnią harmoniczną 30 i 40, około 34,3 mil na godzinę.

Powodem jest to, że aby średnia była prawidłowa, naprawdę potrzebujesz, aby wartości były w tych samych skalowanych jednostkach. Mile na godzinę muszą być porównywane przez tę samą liczbę godzin; aby porównać tę samą liczbę mil, musisz zamiast tego uśrednić godziny na milę, co jest dokładnie tym, co robi średnia harmoniczna.

Precyzja i pamięć mają zarówno prawdziwe pozytywy w liczniku, jak i różne mianowniki. Aby uśrednić je, naprawdę sensowne jest tylko uśrednienie ich odwrotności, a więc średniej harmonicznej.


7
Dzięki, to dobry argument na temat tego, dlaczego jest to poparte teorią; moja odpowiedź była bardziej pragmatyczna.
ZAKOŃCZYŁO - Anony-Mousse

77

Ponieważ bardziej karze wartości ekstremalne.

Rozważ trywialną metodę (np. Zawsze zwracająca klasę A). Istnieje nieskończona liczba elementów danych klasy B i jeden element klasy A:

Precision: 0.0
Recall:    1.0

Biorąc średnią arytmetyczną, miałoby to 50% poprawności. Pomimo tego, że jest to najgorszy możliwy wynik! Przy średniej harmonicznej miara F1 wynosi 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

Innymi słowy, aby mieć wysokie F1, musisz mieć zarówno wysoką precyzję, jak i pamięć.


Kiedy wartość przypomnienia wynosi 0,0, precyzja musi być większa niż 0,0, prawda? Ale rozumiem, o co chodzi w twoim przykładzie. Ładnie wyjaśnione - dzięki.
Facet z Londynu

1
W naszym przykładzie dokładność dla klasy A wynosi 0,5 zamiast 0, a klasa A to 1; dokładność dla klasy B wynosi 0, a odwołanie do klasy B wynosi 0, tak jak będziemy. Zakładam, że twoja zrównoważona klasa oznacza, że ​​prawdziwe etykiety to A i B; każdy dotyczy 50% danych.
Greeness

Stwórzmy nieskończone elementy klasy B i pojedynczy element klasy A. Nie zmienia to matematyki stojącej za F1.
WYJŚCIE - Anony-Mousse

2
Wybór większej równowagi to nie tylko heurystyka. Średnia harmoniczna to jedyny sposób, który ma sens, biorąc pod uwagę jednostki tych stosunków. Średnia nie miałaby znaczenia w porównaniu
Sean Owen

Gdzie jest napisane „heurystyczne” i gdzie twój komentarz różni się od mojej odpowiedzi? Ale: F-miara jest heurystyczna, ponieważ zakłada, że ​​precyzja i pamięć są równie ważne. Dlatego należy wybrać termin beta - heurystycznie zwykle używa się beta = 1.
WYJŚCIE - Anony-Mousse

29

Powyższe odpowiedzi są dobrze wyjaśnione. To jest tylko dla szybkiego odniesienia do zrozumienia natury średniej arytmetycznej i średniej harmonicznej z wykresami. Jak widać na wykresie, rozważ oś X i oś Y jako precyzję i przywołanie, a oś Z jako wynik F1. Tak więc, z wykresu średniej harmonicznej, zarówno precyzja, jak i powtarzalność powinny równomiernie przyczyniać się do wzrostu wyniku F1 w przeciwieństwie do średniej arytmetycznej.

To jest dla średniej arytmetycznej.

wprowadź opis obrazu tutaj

To jest dla średniej harmonicznej.

wprowadź opis obrazu tutaj


Użyj narzędzi formatujących, aby odpowiednio edytować i sformatować swoją odpowiedź. Obraz powinien być wyświetlany tutaj, a nie hiperłącze.
Morse

26

Średnia harmoniczna jest odpowiednikiem średniej arytmetycznej dla odwrotności wielkości, które powinny być uśrednione przez średnią arytmetyczną. Dokładniej, za pomocą średniej harmonicznej przekształcasz wszystkie swoje liczby do postaci „uśrednialnej” (przyjmując odwrotność), bierzesz ich średnią arytmetyczną, a następnie przekształcasz wynik z powrotem w oryginalną reprezentację (ponownie wykonując odwrotność).

Precyzja i przypominanie są „naturalnie” odwrotnością, ponieważ ich licznik jest taki sam, a ich mianowniki są różne. Ułamki są bardziej sensowne do uśrednienia za pomocą średniej arytmetycznej, gdy mają ten sam mianownik.

Dla większej intuicji załóżmy, że liczba prawdziwie dodatnich pozycji pozostaje stała. Następnie, biorąc średnią harmoniczną precyzji i przypomnienia, pośrednio bierzesz średnią arytmetyczną fałszywie pozytywnych i fałszywie negatywnych wyników. Zasadniczo oznacza to, że fałszywie pozytywne i fałszywie negatywne wyniki są dla Ciebie równie ważne, gdy prawdziwe pozytywy pozostają takie same. Jeśli algorytm ma N więcej pozycji fałszywie dodatnich, ale N mniej wyników fałszywie ujemnych (przy tych samych prawdziwych pozytywach), miara F pozostaje taka sama.

Innymi słowy, miara F jest odpowiednia, gdy:

  1. błędy są równie poważne, niezależnie od tego, czy są to fałszywie pozytywne, czy fałszywe negatywy
  2. liczba błędów jest mierzona w stosunku do liczby prawdziwych pozytywów
  3. prawdziwe negatywy są nieinteresujące

Punkt 1 może być prawdziwy lub nie, istnieją ważone warianty miary F, które można zastosować, jeśli to założenie nie jest prawdziwe. Punkt 2 jest całkiem naturalny, ponieważ możemy oczekiwać, że wyniki będą skalowane, jeśli będziemy klasyfikować coraz więcej punktów. Względne liczby powinny pozostać takie same.

Punkt 3 jest dość interesujący. W wielu zastosowaniach negatywy są naturalną wartością domyślną i może być nawet trudne lub arbitralne określenie, co naprawdę liczy się jako prawdziwy negatyw. Na przykład alarm pożarowy ma prawdziwe negatywne zdarzenie co sekundę, co nanosekundę, za każdym razem, gdy upłynął czas Plancka itp. Nawet kawałek skały ma te prawdziwe negatywne zdarzenia wykrywania ognia przez cały czas.

Lub w przypadku wykrywania twarzy, przez większość czasu „ poprawnie nie zwracasz ” miliardów możliwych obszarów obrazu, ale nie jest to interesujące. Interesujące są przypadki, gdy nie zwracają zaproponowany wykrywanie lub kiedy powinien go zwrócić.

Z kolei dokładność klasyfikacji dba w równym stopniu o prawdziwie pozytywne i prawdziwie negatywne wyniki i jest bardziej odpowiednia, jeśli całkowita liczba próbek (zdarzeń klasyfikacyjnych) jest dobrze określona i raczej mała.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.