Załóżmy, że Twój model rzeczywiście przewiduje, że A ma 40% szansy, a B 60% szansy. W niektórych okolicznościach możesz chcieć przekształcić to w klasyfikację, że nastąpi B (ponieważ jest bardziej prawdopodobne niż A). Po przekształceniu w klasyfikację, każda prognoza jest albo dobra, albo zła, i istnieje wiele interesujących sposobów na zrównanie tych dobrych i złych odpowiedzi. Jednym z nich jest prosta dokładność (procent prawidłowych odpowiedzi). Inne obejmują precyzję i wycofanie lub F-środka . Jak wspomnieli inni, warto przyjrzeć się krzywej ROC . Co więcej, twój kontekst może dostarczyć specyficzną macierz kosztów, która nagradza prawdziwie pozytywne wyniki odmiennie od prawdziwych negatywów i / lub karze fałszywie pozytywne wyniki odmiennie od fałszywych negatywów.
Jednak nie sądzę, że tego naprawdę szukasz. Jeśli powiedziałeś, że B ma 60% szansy na wystąpienie, a ja powiedziałem, że ma 99% szansy na zdarzenie, mamy bardzo różne przewidywania, mimo że obaj zostaną zmapowani do B w prostym systemie klasyfikacji. Jeśli zamiast tego zdarzy się A, po prostu się mylisz, podczas gdy ja bardzo się mylę, więc mam nadzieję, że dostanę surowszą karę niż ty. Kiedy twój model faktycznie generuje prawdopodobieństwa, reguła punktacji jest miarą wydajności twoich prognoz prawdopodobieństwa. W szczególności prawdopodobnie potrzebujesz właściwej reguły oceniania, co oznacza, że wynik jest zoptymalizowany pod kątem dobrze skalibrowanych wyników.
Typowym przykładem reguły punktacji jest wynik Briera : gdzie jest przewidywanym prawdopodobieństwem zdarzenie się dzieje, a wynosi 1, jeśli zdarzenie się wydarzyło, a 0, jeśli nie.
BS=1N∑t=1N(ft−ot)2
ftot
Oczywiście rodzaj wybranej reguły punktacji może zależeć od rodzaju zdarzenia, które próbujesz przewidzieć. Powinno to jednak dać ci pomysły na dalsze badania.
Dodam zastrzeżenie, że niezależnie od tego, co robisz, oceniając swój model w ten sposób, sugeruję, abyś spojrzał na swoje dane dotyczące danych poza próbą (czyli danych, które nie zostały użyte do zbudowania modelu). Można tego dokonać poprzez walidację krzyżową . Być może prościej można zbudować model na jednym zestawie danych, a następnie ocenić go na innym (uważając, aby nie wyciągnąć wniosków z próby poza próbą do modelowania w próbie).