Próg decyzyjny tworzy kompromis między liczbą przewidywanych pozytywnych wyników a liczbą negatywnych prognoz, ponieważ - tautologicznie, zwiększenie progu decyzyjnego zmniejszy przewidywaną liczbę pozytywnych i zwiększy liczbę negatywnych przewidujesz
Próg decyzyjny nie jest hiperparametrem w sensie strojenia modelu, ponieważ nie zmienia elastyczności modelu.
Sposób, w jaki myślisz o słowie „strojenie” w kontekście progu decyzyjnego, różni się od tego, jak dostrojone są hiperparametry. Zmiana hiperparametrów do i innych modeli zmienia model(np. współczynniki regresji logistycznej będą różne), podczas gdy dostosowanie progu może zrobić tylko dwie rzeczy: wymienić TP na FN i FP na TN. Jednak model pozostaje taki sam, ponieważ nie zmienia to współczynników. (To samo dotyczy modeli, które nie mają współczynników, takich jak losowe lasy: zmiana progu nic nie zmienia w drzewach.) W wąskim znaczeniu masz rację, że znalezienie najlepszego kompromisu między błędami jest „dostrajanie”, ale mylisz się, sądząc, że zmiana progu jest powiązana z hiperparametrami innych modeli w sposób zoptymalizowany przez GridSearchCV
.
Innymi słowy, zmiana progu decyzyjnego odzwierciedla z twojej strony wybór liczby fałszywych pozytywów i fałszywych negatywów, które chcesz mieć. Rozważ hipotetyczne, że ustawiłeś próg decyzyjny na całkowicie niewiarygodną wartość, taką jak -1. Wszystkie prawdopodobieństwa są nieujemne, więc przy tym progu przewidzisz „dodatni” dla każdej obserwacji. Z pewnego punktu widzenia jest to świetne, ponieważ twoja fałszywa ujemna stopa wynosi 0,0. Jednak współczynnik fałszywie dodatnich wyników jest również ekstremalny na poziomie 1,0, więc w tym sensie wybór progu na -1 jest okropny.
Idealnym rozwiązaniem jest oczywiście TPR 1,0 i FPR 0,0 i FNR 0,0. Ale zwykle nie jest to możliwe w aplikacjach rzeczywistych, więc pytanie brzmi: „ile FPR jestem gotów zaakceptować za ile TPR?”. I to jest motywacja ROC krzywych.