W książce Nate'a Silvera Sygnał i hałas pisze on, co może zapewnić wgląd w twoje pytanie:
Jeden z najważniejszych testów prognozy - twierdziłbym, że jest to najważniejszy - nazywa się kalibracją. Spośród wszystkich razy, kiedy mówiłeś, że istnieje 40% szansa na deszcz, jak często faktycznie występował deszcz? Jeśli na dłuższą metę naprawdę padało przez około 40% czasu, oznacza to, że Twoje prognozy były dobrze skalibrowane. Jeśli zamiast tego padało w ciągu 20 procent czasu, lub 60 procent czasu, tak nie było.
To podnosi kilka punktów. Po pierwsze, jak słusznie zauważyłeś, naprawdę nie możesz wnioskować o jakości pojedynczej prognozy na podstawie zdarzenia, które prognozujesz. Najlepsze, co możesz zrobić, to zobaczyć, jak działa Twój model w trakcie wielu prognoz.
Inną rzeczą, o której należy pomyśleć, jest to, że prognozy dostarczone przez Nate Silver nie są zdarzeniem samym w sobie, ale rozkładem prawdopodobieństwa zdarzenia. W przypadku wyścigu prezydenckiego szacuje rozkład prawdopodobieństwa wygrania wyścigu przez Clintona, Trumpa lub Johnsona. W tym przypadku szacuje rozkład wielomianowy.
Ale tak naprawdę przewiduje wyścig na znacznie bardziej szczegółowym poziomie. Jego prognozy szacują rozkład prawdopodobieństwa procentowej liczby głosów, jaką każdy kandydat zgromadzi w każdym stanie. Jeśli więc weźmiemy pod uwagę 3 kandydatów, można to scharakteryzować losowym wektorem o długości 51 * 3 i przyjmowaniem wartości w przedziale [0, 1], z zastrzeżeniem ograniczenia, że proporcje sumują się do 1 dla proporcji w obrębie stanu. Liczba 51 jest spowodowana tym, że inne to 50 stanów + DC (i tak naprawdę myślę, że jest ich jeszcze kilka, ponieważ niektóre stany mogą podzielić swoje głosy w wyborach), a liczba 3 wynika z liczby kandydatów.
Teraz nie masz zbyt wielu danych, aby ocenić jego prognozy - przewidział tylko 3 ostatnie wybory, o których wiem (czy było ich więcej?). Nie sądzę więc, aby istniał sposób uczciwej oceny jego modelu, chyba że faktycznie miałeś pod ręką model i mógłbyś go ocenić przy użyciu danych symulowanych. Ale wciąż jest kilka interesujących rzeczy, na które można spojrzeć. Na przykład uważam, że byłoby interesujące przyjrzeć się, jak dokładnie przewidział proporcje głosów w poszczególnych stanach w określonym momencie, np. Tydzień po wyborach. Jeśli powtórzysz to dla wielu punktów czasowych, np. Na tydzień, na miesiąc, na 6 miesięcy i na rok, możesz przedstawić całkiem interesującą ekspozycję dla jego prognoz. Jedno ważne zastrzeżenie: wyniki są wysoce skorelowane między stanami w trakcie wyborów, więc nie można tak naprawdę powiedzieć, że masz 51 stanów * 3 wybory niezależne przewidywania instancji (tj. jeśli model nie docenia wyników kandydatów w jednym stanie, będzie miał tendencję do niedoszacowania również w innych stanach) . Ale może pomyślałbym o tym w ten sposób, żebyś miał wystarczająco dużo danych, aby zrobić coś sensownego.