Studiuję kurs uczenia maszynowego, a slajdy z wykładami zawierają informacje, które uważam za sprzeczne z zalecaną książką.
Problem jest następujący: istnieją trzy klasyfikatory:
- klasyfikator A zapewniający lepszą wydajność w dolnym zakresie progów,
- klasyfikator B zapewniający lepszą wydajność w wyższym zakresie progów,
- klasyfikator C to, co otrzymujemy, przerzucając monetę p i wybierając jeden z dwóch klasyfikatorów.
Jaka będzie wydajność klasyfikatora C, widzianego na krzywej ROC?
Slajdy z wykładu stwierdzają, że wystarczy rzucić monetą, aby uzyskać magiczny „ wypukły kadłub ” krzywej ROC klasyfikatorów A i B.
Nie rozumiem tego punktu. Wystarczy rzucić monetą, jak możemy uzyskać informacje?
Slajd z wykładem
Co mówi książka
Z drugiej strony zalecana książka ( Data Mining ...) autorstwa Iana H. Witten, Eibe Frank i Marka A. Halla :
Aby to zobaczyć, wybierz konkretną wartość odcięcia prawdopodobieństwa dla metody A, która daje wartości prawdziwe i fałszywie dodatnie odpowiednio tA i fA, oraz inną wartość odcięcia dla metody B, która daje tB i fB. Jeśli użyjesz tych dwóch schematów losowo z prawdopodobieństwem p i q, gdzie p + q = 1, otrzymasz prawdziwe i fałszywie dodatnie wskaźniki p. tA + q. tB i p. fA + q. pełne wyżywienie. Jest to punkt leżący na linii prostej łączącej punkty (tA, fA) i (tB, fB), a zmieniając p i q, można wyznaczyć całą linię między tymi dwoma punktami.
W moim rozumieniu książka mówi, że aby uzyskać informacje i dotrzeć do wypukłego kadłuba, musimy zrobić coś bardziej zaawansowanego niż zwykłe rzucenie monetą p.
AFAIK, poprawny sposób (jak sugeruje książka) jest następujący:
- powinniśmy znaleźć optymalny próg Oa dla klasyfikatora A
- powinniśmy znaleźć optymalny próg Ob dla klasyfikatora B
zdefiniuj C w następujący sposób:
- Jeśli t <Oa, użyj klasyfikatora A z t
- Jeśli t> Ob, użyj klasyfikatora B z t
- Jeśli Oa <t <Ob, wybierz między klasyfikatorem A z Oa i B z Ob przez prawdopodobieństwo jako liniową kombinację tego, gdzie jesteśmy między Oa i Ob.
Czy to jest poprawne? Jeśli tak, istnieje kilka kluczowych różnic w porównaniu z sugestiami slajdów.
- Nie jest to zwykłe rzucanie monetą, ale bardziej zaawansowany algorytm, który wymaga ręcznie zdefiniowanych punktów i wyborów w zależności od regionu, w którym się znajdujemy.
- Nigdy nie używa klasyfikatorów A i B z wartościami progowymi między Oa i Ob.
Czy możesz mi wyjaśnić ten problem i jaki jest właściwy sposób na jego zrozumienie , jeśli moje rozumienie nie było prawidłowe?
Co by się stało, gdybyśmy po prostu przerzucili monetę p, jak sugerują slajdy? Wydaje mi się, że otrzymalibyśmy krzywą ROC między A i B, ale nigdy „lepszą” niż lepsza w danym punkcie.
O ile widzę, naprawdę nie rozumiem, jak slajdy mogą być poprawne. Obliczenia probabilistyczne po lewej stronie nie mają dla mnie sensu.
Aktualizacja: Znaleziono artykuł napisany przez oryginalnego autora, który wynalazł metodę wypukłego kadłuba: http://www.bmva.org/bmvc/1998/pdf/p082.pdf