Kiedy odpowiednia reguła punktacji jest lepszym oszacowaniem uogólnienia w warunkach klasyfikacji?

Typowym podejściem do rozwiązania problemu z klasyfikacją jest identyfikacja klasy modeli kandydujących, a następnie dokonanie wyboru modelu za pomocą procedury takiej jak walidacja krzyżowa. Zazwyczaj wybiera się model z najwyższą dokładnością lub jakąś powiązaną funkcję, która koduje informacje specyficzne dla problemu, takie jak $\text{F}_\beta$ .

Zakładając, że celem końcowym jest stworzenie dokładnego klasyfikatora (gdzie definicja dokładności jest znowu zależna od problemu), w jakich sytuacjach lepiej jest dokonać wyboru modelu przy użyciu właściwej reguły punktacji, a nie czegoś niewłaściwego, takiego jak dokładność, precyzja, przywołanie itp.? Ponadto zignorujmy problemy dotyczące złożoności modelu i załóżmy z góry, że uważamy wszystkie modele za równie prawdopodobne.

Wcześniej powiedziałbym, że nigdy. Wiemy, że w sensie formalnym klasyfikacja jest łatwiejszym problemem niż regresja [1], [2] i możemy ustalić ściślejsze granice dla tych pierwszych niż później ( $*$ ). Ponadto zdarzają się przypadki, gdy próba dokładnego dopasowania prawdopodobieństw może skutkować nieprawidłowymi granicami decyzji lub nadmiernym dopasowaniem . Jednak w oparciu o rozmowę tutaj i schemat głosowania społeczności w odniesieniu do takich kwestii, kwestionowałem ten pogląd.

Devroye, Luc. Probabilistyczna teoria rozpoznawania wzorców. Vol. 31. springer, 1996., sekcja 6.7
Kearns, Michael J. i Robert E. Schapire. Skuteczne, wolne od dystrybucji uczenie się pojęć probabilistycznych. Podstawy informatyki, 1990. Proceedings., 31th Annual Symposium on. IEEE, 1990.

$(*)$ To stwierdzenie może być trochę niechlujne. W szczególności mam na myśli dane podane w formularzu $S = \{(x_1, y_1), \ldots, (x_n, y_n)\}$ z $x_i \in \mathcal{X}$ i $y_i \in \{1, \ldots, K\}$ wydaje się, że łatwiej jest oszacować granicę decyzji niż dokładnie oszacować prawdopodobieństwa warunkowe.

— alt
źródło

Pomyśl o tym jako o porównaniu między $t$ -test / test Wilcoxona i test mediany Mood. W teście mediany zastosowano optymalną klasyfikację (powyżej lub poniżej mediany dla zmiennej ciągłej), tak aby tylko straciła $\frac{1}{\pi}$ informacji w próbie. Dychotomizacja w punkcie innym niż mediana utraci znacznie więcej informacji. Zastosowanie niewłaściwej reguły punktacji, takiej jak proporcja sklasyfikowana jako „poprawnie”, jest co najwyżej $\frac{2}{\pi}$ lub o $\frac{2}{3}$ wydajny. Powoduje to wybór niewłaściwych funkcji i znalezienie fałszywego modelu.

— Frank Harrell
źródło

Chyba nie rozumiem, dlaczego dychotomizacja jest tak ważna. Ostatecznie celem jest wybór klasyfikatora

h

$h$ z jakiejś klasy hipotez

H

$H$ takie, że

P_{(x, y) \sim D} (h (x) \neq y)

$P_{(x,y) \sim D}(h(x) \neq y)$ jest minimalny, biorąc pod uwagę skończoną próbkę

S

$S$ składający się z przykładów dystrybuowanych zgodnie z

D

$D$ .

— alt

Problem polega na tym, że klasyfikacja (w przeciwieństwie do przewidywania ryzyka) jest niepotrzebną dychotomizacją.

— Frank Harrell,

Czy zatem można bezpiecznie założyć, że odpowiedź na to pytanie nigdy nie jest, pod warunkiem, że celem jest optymalne podejmowanie decyzji przez Bayesa w odniesieniu do niektórych funkcji użyteczności i niedokładne dopasowanie prawdopodobieństwa?

— alt

Optymalna decyzja Bayesa wymaga dobrze skalibrowanego przewidywanego ryzyka, więc oba są ze sobą powiązane. Optymalna decyzja nie wykorzystuje dychotomizacji dokonanej wcześniej w procesie, ale opiera się na pełnej informacji, np.

P r o b (Y = 1 | X = x)

$Prob(Y = 1 | X=x)$ nie

P r o b (Y = 1 | X > c)

$Prob(Y=1 | X > c)$ .

— Frank Harrell,

Niezła dyskusja. W niektórych przypadkach, takich jak niektóre wykrywacze spamu, możesz uzyskać „niepewność”. Bardziej martwi mnie progowanie problemów, takich jak diagnoza medyczna i rokowanie.

— Frank Harrell,