Jakie są prawidłowe wartości precyzji i przywołania w przypadkach krawędzi?


20

Precyzja jest zdefiniowana jako:

p = true positives / (true positives + false positives)

Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1?

To samo pytanie do przypomnienia:

r = true positives / (true positives + false negatives)

Obecnie wdrażam test statystyczny, w którym muszę obliczyć te wartości, a czasami zdarza się, że mianownik ma wartość 0, i zastanawiam się, jaką wartość zwrócić w tym przypadku.

PS: Przepraszam za nieodpowiednie tag, chciałem użyć recall, precisioni limit, ale nie mogę utworzyć jeszcze nowe tagi.

precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

Nie sądzę, że potrzebujemy tagu limitu.

Prawdopodobnie próbujesz zmierzyć wydajność niektórych procedur diagnostycznych; czy jest jakiś powód, dla którego nie używasz odpowiedniej metryki teorii wykrywania sygnału, takiej jak d ', A' lub obszar pod krzywą ROC?
Mike Lawrence

3
@ Mike, precyzja i przywołanie są powszechnymi miernikami oceny, np. Przy wyszukiwaniu informacji, w których ROC, aw szczególności specyficzność jest niewygodna w użyciu, ponieważ już oczekujesz dużej liczby fałszywych trafień.
user979,

Odpowiedzi:


17

Biorąc pod uwagę macierz nieporozumień:

            predicted
            (+)   (-)
            ---------
       (+) | TP | FN |
actual      ---------
       (-) | FP | TN |
            ---------

wiemy to:

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)

Rozważmy przypadki, w których mianownik wynosi zero:

  • TP + FN = 0: oznacza, że ​​w danych wejściowych nie było przypadków dodatnich
  • TP + FP = 0: oznacza, że ​​wszystkie wystąpienia zostały przewidziane jako ujemne

9
Rozszerzanie twojej odpowiedzi: Jeśli TP = 0 (jak w obu przypadkach), przywołanie wynosi 1, ponieważ metoda nie wykryła wszystkich prawdziwych pozytywów; precyzja wynosi 0, jeśli jest jakikolwiek FP, a 1 w przeciwnym razie.

11

Odpowiedź brzmi: tak. Nieokreślone przypadki krawędzi występują, gdy prawdziwe pozytywy (TP) mają wartość 0, ponieważ jest to w mianowniku zarówno P, jak i R. W tym przypadku

  • Przypomnij = 1, gdy FN = 0, ponieważ odkryto 100% TP
  • Precyzja = 1, gdy FP = 0, ponieważ nie było żadnych fałszywych wyników

To jest przeformułowanie komentarza @ mbq.


3

Znam inną terminologię. To, co nazywacie precyzją, miałbym dodatnią wartość predykcyjną (PPV). A to, co nazywacie pamięcią, nazwałbym czułością (Sens). :

http://en.wikipedia.org/wiki/Receiver_operating_characteristic

W przypadku czułości (przypomnienia), jeśli mianownik wynosi zero (jak wskazuje Amro), nie ma żadnych przypadków dodatnich, więc klasyfikacja jest bez znaczenia. (To nie powstrzymuje ani TP, ani FN jako zero, co spowodowałoby ograniczenie czułości 1 lub 0. Punkty te znajdują się odpowiednio w prawym górnym i lewym dolnym rogu krzywej ROC - TPR = 1 i TPR = 0. )

Limit PPV jest jednak znaczący. Możliwe jest ustawienie odcięcia testowego tak wysoko (lub nisko), aby wszystkie przypadki były przewidywane jako ujemne. Jest to początek krzywej ROC. Wartość graniczną PPV tuż przed punktem odcięcia osiąga początek można oszacować, biorąc pod uwagę ostatni odcinek krzywej ROC tuż przed początkiem. (Może to być lepsze do modelowania, ponieważ krzywe ROC są notorycznie głośne).

Na przykład, jeśli istnieje 100 rzeczywistych wyników pozytywnych i 100 faktów negatywnych, a końcowa konfiguracja krzywej ROC zbliża się od TPR = 0,08, FPR = 0,02, wówczas ograniczający PPV wynosiłby PPR ~ 0,08 * 100 / (0,08 * 100 + 0,02 * 100 ) = 8/10 = 0,8, tj. 80% prawdopodobieństwa bycia prawdziwie dodatnim.

W praktyce każda próbka jest reprezentowana przez segment na krzywej ROC - poziomy dla rzeczywistego ujemnego i pionowy dla rzeczywistego dodatniego. Można oszacować ograniczające PPV według ostatniego segmentu przed pochodzeniem, ale dałoby to oszacowane ograniczające PPV wynoszące 1, 0 lub 0,5, w zależności od tego, czy ostatnia próbka była prawdziwie dodatnia, fałszywie dodatnia (faktycznie ujemna) czy wykonana równego TP i FP. Lepsze byłoby podejście do modelowania, być może przy założeniu, że dane są normalne - powszechne założenie, np .: http://mdm.sagepub.com/content/8/3/197.short


1

Zależy to od tego, co rozumiesz przez „podejście 0”. Jeśli zarówno fałszywie dodatnie, jak i fałszywie ujemne wyniki zbliżają się do zera w szybszym tempie niż wartości prawdziwie dodatnie, to tak na oba pytania. Ale niekoniecznie.


Naprawdę nie znam stawki. Szczerze mówiąc wszystko, co wiem, to to, że mój program zawiesił się z podziałem na zero i że muszę jakoś poradzić sobie z tą sprawą.
Björn Pollex,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.