Zastosowanie odpowiedzi Erika do odpowiedzi Michaela :
Możesz robić to samo myślenie, do którego odnosi się Erik przy wyborze miary wydajności.
Uważam, że pomocne jest odniesienie się do różnych takich środków przez pytania, na które odpowiadają (tutaj w języku diagnostyki medycznej, który znam najbardziej - ale może po prostu możesz zastąpić pacjenta tekstem, a chorobę spamem ;-)):
Wrażliwość: biorąc pod uwagę, że pacjent naprawdę cierpi na tę chorobę, jakie jest prawdopodobieństwo, że klasyfikator to zauważy?
Specyfika: biorąc pod uwagę fakt, że pacjent naprawdę nie cierpi na tę chorobę, jakie jest prawdopodobieństwo, że klasyfikator to zauważy?
Pozytywna wartość predykcyjna: biorąc pod uwagę, że klasyfikator twierdzi, że pacjent jest chory, jakie jest prawdopodobieństwo, że pacjent rzeczywiście cierpi na tę chorobę?
Negatywna wartość predykcyjna: biorąc pod uwagę, że klasyfikator twierdzi, że pacjent nie jest chory, jakie jest prawdopodobieństwo, że pacjent naprawdę nie choruje?
Jak widać, wartości predykcyjne są tym, czym tak naprawdę interesują lekarze i pacjenci. Jednak prawie każdy charakteryzuje jego klasyfikator czułością i swoistością. Powodem jest to, że wartości predykcyjne muszą brać pod uwagę występowanie choroby i mogą się znacznie różnić (rzędy wielkości!) Dla różnych rodzajów pacjentów.
Więcej na temat pytania:
Założę się, że masz rację, martwiąc się.
Biorąc przykład z obu scenariuszy Erika:
Oto niezależne próbki testowe:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(zauważ, że ten test był dwustronny, zakładając, że dwa klasyfikatory zostałyby opublikowane, nawet gdyby wyniki były odwrotne ...)
Oto najlepsza możliwa sytuacja: test sparowany, a nowy klasyfikator jest odpowiedni dla wszystkich próbek, stary też ma rację, plus 10 dodatkowych:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(wartość p pozostaje poniżej magicznego 0,05, o ile nie więcej niż 10 próbek na 1000 zostało inaczej przewidzianych przez dwa klasyfikatory).
Nawet jeśli wartości p są prawidłową odpowiedzią na złe pytanie, istnieją oznaki, że jest to trochę ciasne miejsce.
Jednak biorąc pod uwagę zwykłą praktykę naukową, tj. Przetestowano nieznaną (niepublikowaną) liczbę nowych funkcji, a opublikowano tylko tę, która działała nieco lepiej, miejsce staje się jeszcze ściślejsze. A następnie 80% klasyfikator może być następcą około 79% klasyfikatora ...
Jeśli lubisz czytać po niemiecku, znajdziesz naprawdę fajne książki Beck-Bornhold i Dubben. Jeśli dobrze pamiętam, Mit an Wahrscheinlichkeit grenzender Sicherheit bardzo miło omawia te problemy. (Nie wiem, czy istnieje wydanie angielskie, dość dosłowne tłumaczenie tytułu brzmi „Z pewnością graniczy z prawdopodobieństwem”)