Dlaczego większość opublikowanych prac z zakresu obrazowania medycznego próbuje zmniejszyć liczbę fałszywych trafień?

20

W przetwarzaniu obrazów medycznych większość opublikowanych prac stara się zmniejszyć współczynnik fałszywie dodatnich wyników (FPR), podczas gdy w rzeczywistości fałszywe negatywy są bardziej niebezpieczne niż fałszywie pozytywne. Jakie jest uzasadnienie tego?

image-classification image-recognition

— Hunar A.Ahmed
źródło

1

Z punktu widzenia en.wikipedia.org/wiki/Primum_non_nocere fałszywe alarmy można uznać za bardziej niebezpieczne awarie, nawet przed rozważeniem różnicy liczb bezwzględnych, którą Dragon prawidłowo wskazuje.

— jpa

29

TL; DR: choroby są rzadkie, więc bezwzględna liczba wyników fałszywie dodatnich jest znacznie większa niż liczba wyników fałszywie ujemnych.

Załóżmy, że nasz system ma ten sam współczynnik fałszywie dodatnich i fałszywie ujemnych 1% (całkiem dobrze!) I że wykrywamy w tym roku obecność nowych nowotworów: 439,2 / 100 000 osób, czyli 0,5% populacji. [ źródło ]

Bez raka, bez wykrywania: 99,5% x 99% = 98,5% (98,505%)
Brak raka, wykrycie: 99,5% x 1% = 1,0% (0,995%)
Rak, wykrycie: 0,5% x 99% = 0,5% (0,495%)
Rak, brak wykrycia: 0,5% x 1% = 0,005%

Widzimy więc, że mamy problem: dla każdego, kto ma raka, dwie osoby, które nie miały raka, kończą się chirurgią inwazyjną, chemioterapią lub radioterapią.

Na każdą osobę, która nie wykryła obecnego raka, dwieście osób otrzymuje aktywnie szkodliwe leczenie, którego nie potrzebowali i na co naprawdę nie mogą sobie pozwolić.

— smok
źródło

1

W przypadku wielu badań przesiewowych zapadalność (liczba nowo zdiagnozowanych chorób na 100 000 populacji) jest nawet jeszcze niższa: 0,5% to zapadalność na nowotwory całkowite, podczas gdy programy przesiewowe są ukierunkowane na określone rodzaje raka.

— cbeleites wspiera Monikę

6

@cbeleites, na konkretny przykład, gruczolakorak trzustki jest prawie zawsze śmiertelny, ponieważ jest bezobjawowy, dopóki nie osiągnie zaawansowanego stadium. Jeśli zastosujesz test przesiewowy z 1% fałszywie dodatnim / 1% fałszywie ujemnym odsetkiem w całej populacji Stanów Zjednoczonych, zidentyfikujesz około trzech milionów przypadków, z których tylko 46 000 faktycznie ma raka, co daje wynik pozytywny wartość prognostyczna tylko 1,5%.

— Mark

2

W przypadku obrazowania medycznego (na przykład fMRI) problem może spotęgować fakt, że pojedynczy obraz składa się z wielu „wokseli”, których aktywacja jest uważana za hipotezę - patrz na przykład Zen i Sztuka wielokrotnych porównań - Myślę, że może o to chodzi w OP

— steeldriver

16

Znasz historię chłopca, który płakał wilka, prawda?

To ten sam pomysł. Po tym, jak jakiś klasyfikator tyle razy fałszywie alarmuje (woła wilka), personel medyczny wyłączy go lub zignoruje.

„Och, to znowu! NOPE!”

Przynajmniej w grupie bioinżynieryjnej, z którą pracowałem, nacisk kładzie się na zmniejszenie FPR, ponieważ celem jest stworzenie narzędzia, które ostrzeże lekarzy o potencjalnej patologii, i powiedzieli nam, że zignorują produkt, który płacze wilka zbyt wiele.

W przypadku produktu, który pomaga lekarzom, musimy odwołać się do ich psychologii, pomimo uzasadnionego argumentu, że brak wilka na farmie jest gorszy niż płaczący wilk.

Edycja : Zmniejszenie liczby fałszywych alarmów również ma uzasadniony argument. Jeśli twój komputer wciąż płacze wilkiem, od czasu do czasu uzyskując prawdziwy pozytyw (i łapie większość prawdziwych pozytywów), to skutecznie mówi, że ktoś może być chory. Są w szpitalu. Lekarz wie, że pacjent może być chory.

— Dave
źródło

7

Podsumowanie: pytanie prawdopodobnie * nie brzmi, czy jeden fałszywie ujemny wynik jest gorszy niż jeden fałszywie dodatni, prawdopodobnie * bardziej przypomina to, czy 500 fałszywie dodatnich jest dopuszczalnych, aby uzyskać jeden fałszywy ujemny.

* zależy od aplikacji

Pozwól mi rozwinąć nieco odpowiedź @ Dragon:

Badania przesiewowe oznaczają, że szukamy chorób wśród pozornie zdrowej populacji. Jak wyjaśnił @Dragon, do tego potrzebujemy wyjątkowo niskiego FPR (lub wysokiej czułości), w przeciwnym razie otrzymamy więcej fałszywych wyników pozytywnych niż prawdziwych. Tj. Dodatnia wartość predykcyjna (# prawdziwie chora wśród wszystkich zdiagnozowanych pozytywnie) byłaby niedopuszczalnie niska.
Czułość (TPR) i swoistość (TNR) są łatwe do zmierzenia w systemie diagnostycznym: weź kilka naprawdę (nie) chorych przypadków i zmierz odsetek prawidłowo wykrytych przypadków.
OTOH, zarówno z punktu widzenia lekarzy, jak i pacjentów, wartości predykcyjne są bardziej do rzeczy . Są „odwrotne” do wrażliwości i swoistości i mówią ci spośród wszystkich pozytywnych (negatywnych) prognoz, która część jest poprawna. Innymi słowy, po teście stwierdzono „chorobę”, jakie jest prawdopodobieństwo, że pacjent rzeczywiście choruje.
Jak pokazał Ci @Dragon, częstość występowania (lub rozpowszechnienie, w zależności od testu, o którym mówimy) odgrywa tutaj kluczową rolę. Częstość występowania jest niska we wszystkich rodzajach badań przesiewowych / wczesnej diagnostyki raka.
Aby to zilustrować, badania przesiewowe w kierunku raka jajnika u kobiet po menopauzie wykazują częstość 0,04% w populacji ogólnej i 0,5% u kobiet wysokiego ryzyka z wywiadem rodzinnym i / lub znanymi mutacjami genów supresorowych nowotworów BRCA1 i 2 [Buchen, L. Rak: brak znaku. Nature, 2011, 471, 428-432]
Tak więc pytanie zazwyczaj nie brzmi, czy jeden fałszywie ujemny jest gorszy niż jeden fałszywie dodatni, ale nawet 99% swoistość (1% FPR) i 95% czułość (liczby zaczerpnięte z dokumentu powiązanego powyżej) oznaczają około 500 fałszywie dodatnich wyników dla każdego fałszywie ujemnego wyniku .
Na marginesie, należy również pamiętać, że wczesna diagnoza raka sama w sobie nie jest magicznym lekarstwem na raka. Na przykład w przypadku mammografii przesiewowej w kierunku raka piersi tylko 3–13% prawdziwie pozytywnych pacjentów faktycznie korzysta z tego badania przesiewowego .
Musimy więc również kontrolować liczbę fałszywych wyników pozytywnych dla każdego korzystnego pacjenta. Np. W przypadku mammografii, wraz z tymi liczbami , zgrubnie zgaduję, że mamy gdzieś w przedziale od 400 do 1800 fałszywie dodatnich wyników na jedną prawdziwie pozytywną (grupa 39 - 49-letnia).
Przy setkach fałszywie pozytywnych wyników na fałszywie ujemny wynik (a także może setkach, a nawet tysiącach fałszywie pozytywnych wyników na pacjenta korzystającego z badań przesiewowych) sytuacja nie jest tak jednoznaczna, jak „czy jeden pominięty nowotwór jest gorszy od jednego fałszywie pozytywnego rozpoznania raka”: fałszywie dodatnie wywierają wpływ, od psychologicznego i psychosomatycznego (martwienie się, że sam rak nie jest zdrowy) do fizycznych zagrożeń związanych z późniejszymi diagnozami, takimi jak biopsja (która jest niewielką operacją i jako taka wiąże się z własną ryzyko).
Nawet jeśli wpływ jednego fałszywie dodatniego wyniku jest niewielki, odpowiadające mu ryzyko może się znacznie zsumować, jeśli trzeba wziąć pod uwagę setki fałszywie dodatnich wyników.

Sugerowana lektura: Gerd Gigerenzer: Ryzyko: jak podejmować dobre decyzje (2014).
Jednak to, co PPV i NPV są potrzebne, aby test diagnostyczny był użyteczny, zależy w dużej mierze od aplikacji.
Jak wyjaśniono, w badaniach przesiewowych pod kątem wczesnego wykrywania raka nacisk kładziony jest zazwyczaj na PPV, tj. Upewnienie się, że nie wyrządzisz zbyt dużej szkody fałszywym negatywom: znalezienie znacznej części (nawet jeśli nie wszystkich) wczesnych pacjentów z rakiem jest już poprawą w stosunku do status quo bez kontroli.
OTOH, test na obecność wirusa HIV w oddawaniu krwi koncentruje się najpierw na NPV (tj. Upewnieniu się, że krew jest wolna od HIV). Mimo to, w drugim (i trzecim) kroku, fałszywie dodatnie wyniki są następnie zmniejszane przez zastosowanie dalszych testów, zanim zaniepokoi się ludzi z (fałszywie) dodatnimi wynikami testu na HIV.
Last but not least, istnieją również zastosowania badań medycznych, w których częstości występowania lub rozpowszechnienia nie są tak ekstremalne, jak zwykle w badaniach przesiewowych populacji niezbyt wysokiego ryzyka, np. Niektóre diagnozy różnicowe.

— cbeleites wspiera Monikę
źródło

1

To jest trochę gęste; może użyć formatowania, aby ułatwić czytanie. Wygląda na dobrą odpowiedź, ale trudno się w nią zagłębić bez dużo czasu.

— Bob

3

Z osobistego punktu widzenia, a nie doświadczenie w dziedzinie analizy danych, fałszywie pozytywny ma większy wpływ na jakość życia pacjenta niż fałszywie negatywny (przynajmniej w większości zastosowań przetwarzania obrazów medycznych. Nie mówimy tutaj o wynikach laboratoryjnych) .

Spójrzmy na konkretny przykład: badanie przesiewowe guza .

Fałszywie ujemny oznacza, że guz we wczesnym stadium ma więcej czasu na rozwój i rozwój złośliwego raka. Ogólnie proces ten zajmuje dużo czasu, a każde kolejne badanie ma większą szansę na jego wykrycie, ale realistycznie cierpi długoterminowe zdrowie pacjenta.

Ponadto w diagnozowaniu zawsze bierze udział człowiek. Medyczne przetwarzanie obrazu na obecnym etapie technologicznym ma stanowić pomoc dla personelu medycznego, a nie substytut . Często ma na celu wskazanie zmian lub zmian w tkankach, które są tak subtelne, że człowiek może je przeoczyć. Nie ma szans, że lekarz przeoczy zaawansowany guz nowotworowy. Nie potrzebują do tego przetwarzania obrazu.

Jeśli chodzi o procedury medyczne, jeśli guz nie przestanie działać przed następnym badaniem przesiewowym, nie ma dużej różnicy między usunięciem guza we wczesnym stadium, a guzem, który miał trochę więcej czasu na rozwój. Ilość usuniętej tkanki jest większa, ale rodzaj operacji jest często taki sam. (Zakłada się, że pacjent regularnie przeprowadza badania zdrowia).

Fałszywie pozytywny ma wiele implikacji, które nie wszystkie są bezpośrednio związane z dolegliwością:

Dodatkowe procedury. Po uzyskaniu pozytywnego wyniku procesu obrazowania przeprowadza się więcej badań, w których pobiera się krew lub tkankę (biopsja). Obiektywnie rzecz biorąc, ciało pacjenta jest uszkodzone, aby móc zweryfikować wynik obrazowania.
Strach. Testy laboratoryjne wymagają czasu. Osoba dotknięta chorobą często przeżywa kilka dni, a czasem tygodni niepewności pogody, czy nie jest to w rzeczywistości rak. Wiele osób, które doświadczyły tak fałszywego pozytywu, opisuje to wydarzenie jako „traumatyzujące” i cierpi na lęk związany ze zdrowiem przez długi czas.
Inwestycja w czas. Jeśli weryfikacja wyniku obrazowania za pomocą testów laboratoryjnych lub podobnych wymaga kilku badań, pacjent i lekarze muszą poświęcić im czas. Nawet jeśli wymaga tylko jednego testu, jest w to zaangażowanych kilka osób, w tym pielęgniarki, lekarze i technicy laboratoryjni. W czasach, gdy lekarze są przewlekle przepracowani, należy tego unikać, jeśli to możliwe.
Niepotrzebne leki. W najgorszym przypadku pacjent jest leczony z powodu dolegliwości, których nawet nie ma, a jego ciało jest niepotrzebnie obciążane przez skutki uboczne leków.
Utrata efektu Personel medyczny zignoruje prawdziwe wyniki pozytywne, jeśli procedura przyniesie zbyt wiele wyników fałszywie dodatnich (jak wyjaśniono w innych odpowiedziach).

Ta ocena stosunku korzyści do ryzyka pokazuje, że wynik fałszywie ujemny obejmuje mniejsze ryzyko dla pacjenta niż wynik fałszywie dodatni. Dlatego priorytet redukcji fałszywych trafień jest na ogół wyższy.

— Elmy
źródło

1

Czas klinicysty jest cenny

Z dziedziny medycyny klinicyści często próbują wykryć i zdiagnozować wiele różnych chorób, co jest procesem czasochłonnym. Narzędzie, które przedstawia wynik fałszywie dodatni (nawet jeśli jest niski), jest mniej przydatne, ponieważ nie można ufać tej diagnozie, co oznacza, że za każdym razem, gdy diagnoza jest diagnozowana, należy ją sprawdzić. Pomyśl o tym jak o WebMD oprogramowania - wszystko jest oznaką raka!

Narzędzie przedstawiające fałszywe negatywy, ale zawsze przedstawiające prawdziwe pozytywne wyniki, jest o wiele bardziej przydatne, ponieważ klinicysta nie musi tracić czasu na sprawdzanie lub ponowne odgadywanie diagnozy. Jeśli oznaczy kogoś jako chorego z określoną diagnozą, praca wykonana. Jeśli tak się nie stanie, osoby, które nie są wyróżnione jako chore, i tak otrzymają dodatkowe testy.

Lepiej mieć narzędzie, które może dokładnie zidentyfikować nawet jedną cechę choroby, niż narzędzie, które może mieć wiele cech.

— SSight3
źródło

0

Fałszywie dodatni wskaźnik (FPR) znany również jako współczynnik fałszywych alarmów (FAR); Duża wartość fałszywie dodatniego wyniku może powodować słabą wydajność systemu wykrywania obrazu medycznego. Fałszywie dodatni to taki, w którym wynik testu jest pozytywny, a wynik powinien być negatywny. Na przykład test ciążowy jest dodatni, gdy w rzeczywistości dana osoba nie jest w ciąży.

— EricAtHaufe
źródło

4

To nie odpowiada na pytanie. OP nie pyta, co oznacza fałszywie pozytywny, ale dlaczego uważa się go za ważniejszy niż fałszywie negatywny.

— Llewellyn

0

Najprawdopodobniej wszyscy w tym wątku już wiedzą, że jest to problem leżący u podstaw analizy bayesowskiej. Wyłącznie na korzyść przyszłych pielgrzymów, którzy mogą myśleć o fałszywych trafieniach jako o jakimś problemie w radiologii, mam nadzieję, że ten komentarz dostarczy nieco bardziej ogólnej perspektywy.

— Richard Careaga
źródło