W książce Ian Goodfellow's Deep Learning napisano o tym
Czasami funkcja utraty, o którą tak naprawdę dbamy (powiedzmy, błąd klasyfikacji), nie jest funkcją, którą można skutecznie zoptymalizować. Na przykład dokładne minimalizowanie oczekiwanej straty 0-1 jest zazwyczaj trudne (wykładnicze w wymiarze wejściowym), nawet w przypadku klasyfikatora liniowego. W takich sytuacjach zwykle zamiast tego optymalizowana jest funkcja zastępczej utraty, która działa jak proxy, ale ma zalety.
Dlaczego strata 0-1 jest trudna do rozwiązania lub jak jest wykładnicza w wymiarach wejściowych?