Właściwe jest stosowanie niewłaściwej reguły punktacji, gdy celem jest rzeczywiście prognozowanie, ale nie wnioskowanie. Nie obchodzi mnie to, czy inny prognostyk oszukuje, czy nie, kiedy to ja będę robił prognozy.
Właściwe reguły oceniania zapewniają, że podczas procesu szacowania model zbliża się do procesu generowania prawdziwych danych (MZD). Brzmi obiecująco, ponieważ zbliżając się do prawdziwego MZD, będziemy również dobrze postępować w zakresie prognozowania w ramach dowolnej funkcji strat. Chodzi o to, że przez większość czasu (w rzeczywistości prawie zawsze) nasza przestrzeń wyszukiwania modelu nie zawiera prawdziwego MZD. W efekcie zbliżamy się do prawdziwego MZD za pomocą proponowanej przez nas funkcjonalnej formy.
W tym bardziej realistycznym otoczeniu, jeśli nasze zadanie prognozowania jest łatwiejsze niż ustalenie całej gęstości prawdziwego MZD, możemy faktycznie zrobić to lepiej. Dotyczy to szczególnie klasyfikacji. Na przykład prawdziwy MZD może być bardzo złożony, ale zadanie klasyfikacji może być bardzo łatwe.
Jarosław Bułatow podał na swoim blogu następujący przykład:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
Jak widać poniżej, prawdziwa gęstość jest niepewna, ale bardzo łatwo jest zbudować klasyfikator, aby oddzielić generowane przez to dane na dwie klasy. Po prostu, jeśli klasa wyjściowa 1, a jeśli klasa wyjściowa 2.x ≥ 0x < 0
Zamiast dopasować dokładną gęstość powyżej, proponujemy poniższy surowy model, który jest dość daleki od prawdziwego MZD. Jednak robi to doskonałą klasyfikację. Stwierdzono to, stosując utratę zawiasów, co nie jest właściwe.
Z drugiej strony, jeśli zdecydujesz się znaleźć prawdziwą MZD z utratą logów (co jest właściwe), zaczniesz dopasowywać niektóre funkcje, ponieważ nie wiesz, jakiej dokładnie formy funkcjonalnej potrzebujesz a priori. Ale kiedy starasz się coraz mocniej dopasować, zaczynasz błędnie klasyfikować rzeczy.
Pamiętaj, że w obu przypadkach zastosowaliśmy te same formy funkcjonalne. W przypadku niewłaściwej straty przekształcił się w funkcję krokową, która z kolei dokonała doskonałej klasyfikacji. We właściwym przypadku oszalało, próbując zaspokoić każdy region gęstości.
Zasadniczo nie zawsze musimy osiągnąć prawdziwy model, aby mieć dokładne prognozy. A czasem tak naprawdę nie musimy robić dobrze w całej dziedzinie gęstości, ale być bardzo dobrzy tylko w niektórych jej częściach.