Czy f-Measure jest synonimem dokładności?

Rozumiem, że miara f (oparta na precyzji i przywołaniu) jest oszacowaniem dokładności klasyfikatora. Ponadto, gdy mamy niezrównoważony zestaw danych , f-miara jest ważniejsza od dokładności . Mam proste pytanie (które dotyczy bardziej prawidłowej terminologii niż technologii). Mam niezrównoważony zestaw danych i używam miary F w swoich eksperymentach. Mam zamiar napisać artykuł, który NIE jest przeznaczony na konferencję uczenia maszynowego / eksploracji danych. W związku z tym mogę w tym kontekście odnieść się do f-pomiaru jako synonimu. Na przykład, mam współczynnik f 0,82, to czy mogę powiedzieć, że mój klasyfikator osiąga 82% dokładnych prognoz?

— Annamalai N.
źródło

Lepiej byłoby wprowadzić miarę f, jeśli go użyjesz. Zastąpienie tych dwóch nie jest poprawne z mojego punktu widzenia. W twoim przypadku, jeśli twoja dokładność wynosi 99%, osiągniesz 99% dokładnych prognoz, bez względu na to, jaki jest twój współczynnik f, i może to prowadzić czytelników do błędu.

— AdrienNK

@AdrienNK: 99% dokładność nie oznacza 99% poprawnych prognoz, chyba że względne częstotliwości przypadków testowych są takie same jak w rzeczywistej sytuacji zastosowania.

— cbeleites niezadowoleni z SX

@cbeleites masz rację, wiem, ale często przypadki testowe są wydawane z tej samej dystrybucji (no cóż, może to jest stronniczy pogląd, jaki mam, ponieważ rzadko musiałem pracować z danymi, na których tak nie było)

— AdrienNK

@AdrienNK: Jestem chemikiem analitycznym pracującym nad diagnozami medycznymi. Częstość występowania danej choroby może się różnić w zależności od rzędów wielkości w różnych subpopulacjach pacjentów. Zobacz np. Dyskusję na temat różnych PPV w drugiej połowie tego artykułu: nature.com/news/2011/110323/full/471428a.html

— cbeleites niezadowoleni z SX

To była fascynująca lektura, dziękuję za zwrócenie na to uwagi.

— AdrienNK

Odpowiedzi:

Po pierwsze uważam, że „dokładność” bywa nieco myląca, ponieważ odnosi się do różnych rzeczy:

Termin dokładność genowa do oceny systemów lub metod (jestem chemikiem analitycznym) odnosi się do błędu prognoz, tj. Odpowiada na pytanie, jak dobre są prognozy.

Jak wiadomo, istnieje wiele różnych miar wydajności, które odpowiadają różnym aspektom wydajności klasyfikatorów. Jeden z nich nazywa się również dokładnością. Jeśli twój artykuł nie jest przeznaczony dla odbiorców uczących się / klasyfikowanych maszynowo, polecam, aby to rozróżnienie było bardzo jasne. Nawet w przypadku tego bardziej szczegółowego znaczenia dokładności byłbym bardzo wyraźny w kwestii tego, co nazywam dokładnością, ponieważ ponownie może wystąpić kilka sposobów radzenia sobie z nierównowagą klas. Zazwyczaj nierównowaga klas jest ignorowana, co prowadzi do dobrze znanego obliczenia . Możesz jednak również zastosować średnią czułości i swoistości, która sprowadza się do kontrolowania nierównowagi klasy poprzez ważenie swojej średniej. $\frac{TP+TN}{all~cases}$

Wynik F jest często wprowadzany jako harmoniczna średnia precyzji i przywołania (lub dodatnia wartość predykcyjna i czułość). W przypadku pytania uważam, że warto to nieco przeliterować i uprościć:

$F = \frac{2 \cdot precision \cdot recall}{precision + recall} = \frac{2 \frac{TP}{all~P} \frac{TP}{all T}}{\frac{TP}{all~P} + \frac{TP}{all T}} = \frac{2 \frac{TP^2}{all~P \cdot all T}}{\frac{TP \cdot all~T}{all~P \cdot all T} + \frac{TP \cdot all~P}{all~P \cdot all T}} = \frac{2~TP^2}{TP \cdot all~T + TP \cdot all~P} = \frac{2~TP}{all~T + all~P}$

Ostatnie wyrażenie nie jest ułamkiem niczego, co mogę uznać za pewną grupę przypadków testowych. W szczególności spodziewane jest (duże) nakładanie się przypadków PRAWDA i POZYTYWNE. To powstrzymałoby mnie od wyrażania wyniku F jako wartości procentowej, ponieważ tego rodzaju sugeruje pewną liczbę przypadków. Właściwie myślę, że ostrzegłbym czytelnika, że F-score nie ma takiej interpretacji.

— cbeleites niezadowoleni z SX
źródło

dokładniej jest to miara . Wynik F można uogólnić za pomocą osobnego parametru

F_{1}

$F_1$

— qwr

Szybka odpowiedź:

Nie, F-measureformuła nie składa się z TNczynnika i jest przydatna przy wyszukiwaniu problemów ^(doc) .

Tak więc, jest ( F-measure) prawidłowe podejście do oceny niezrównoważonych zestawów danych lub w przypadku problemów z odzyskiwaniem zamiast accuracyi ROC.

Accuracy = (TP+TN) / (TP+FP+FN+TN)

F1_Score = 2*(Recall * Precision) / (Recall + Precision)
# or
F1_Score = 2*TP / (2*TP + FP + FN)

[ UWAGA ]:

Precision = TP / (TP+FP)

Recall = TP / (TP+FN)

— Benyamin Jafari
źródło