Pytasz o trzy rzeczy: (a) jak połączyć kilka prognoz, aby uzyskać pojedynczą prognozę, (b) czy można tu zastosować podejście bayesowskie, oraz (c) jak radzić sobie z zerowymi prawdopodobieństwami.
Łączenie prognoz jest powszechną praktyką . Jeśli masz kilka prognoz, niż jeśli weźmiesz średnią z tych prognoz, wynikowa połączona prognoza powinna być lepsza pod względem dokładności niż jakakolwiek z poszczególnych prognoz. Aby je uśrednić, można użyć średniej ważonej, gdy wagi oparte są na błędach odwrotnych (tj. Precyzji) lub zawartości informacyjnej . Jeśli posiadasz wiedzę na temat niezawodności każdego źródła, możesz przypisać wagi proporcjonalne do niezawodności każdego źródła, więc bardziej niezawodne źródła mają większy wpływ na ostateczną łączną prognozę. W twoim przypadku nie masz żadnej wiedzy na temat ich wiarygodności, więc każda z prognoz ma taką samą wagę i dlatego możesz użyć prostej średniej arytmetycznej z trzech prognoz
0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%
Jak zasugerowali w komentarzach @AndyW i @ArthurB. , dostępne są inne metody oprócz prostej średniej ważonej. Wiele takich metod jest opisanych w literaturze na temat uśredniania prognoz ekspertów, których wcześniej nie znałem, więc dziękuję. W uśrednianiu prognoz ekspertów czasami chcemy skorygować fakt, że eksperci mają tendencję do regresji do średniej (Baron i in., 2013), lub też czynią swoje prognozy bardziej ekstremalnymi (Ariely i in., 2000; Erev i in., 1994). Aby to osiągnąć, można wykorzystać przekształcenia poszczególnych prognoz , np. Funkcję logitpi
logit(pi)=log(pi1−pi)(1)
szanse na potęgęa
g(pi)=(pi1−pi)a(2)
gdzie lub bardziej ogólna transformacja formy0<a<1
t(pi)=paipai+(1−pi)a(3)
gdzie jeśli = 1 nie transformacja jest stosowana, jeśli > 1 poszczególne prognozy są bardziej ekstremalne, jeśli 0 < a < 1 prognozy są mniej ekstremalne, co jest pokazane na rysunku poniżej (patrz Karmarkar, 1978; Baron et al, 2013 ).a=1a>10<a<1
Po takiej transformacji prognozy są uśredniane (przy użyciu średniej arytmetycznej, mediany, średniej ważonej lub innej metody). Jeśli zastosowano równania (1) lub (2), wyniki należy przekształcić wstecznie za pomocą odwrotnego logitu dla (1) i odwrotnych szans dla (2). Alternatywnie można zastosować średnią geometryczną (patrz Genest i Zidek, 1986; por. Dietrich i List, 2014)
p^=∏Ni=1pwii∏Ni=1pwii+∏Ni=1(1−pi)wi(4)
lub podejście zaproponowane przez Satopää i in. (2014)
p^=[∏Ni=1(pi1−pi)wi]a1+[∏Ni=1(pi1−pi)wi]a(5)
gdzie są ciężary. W większości przypadków stosuje się jednakowe wagi w i = 1 / N, chyba że istnieją informacje a priori sugerujące istnienie innego wyboru. Takie metody stosuje się w uśrednianiu prognoz ekspertów, aby skorygować niedostateczną lub nadmierną pewność siebie. W innych przypadkach należy rozważyć, czy przekształcenie prognoz na bardziej lub mniej ekstremalne jest uzasadnione, ponieważ może to spowodować, że wynikowe oszacowania zagregowane wypadną poza granice wyznaczone przez najniższą i największą indywidualną prognozę.wiwi=1/N
Jeśli masz wiedzę a priori o prawdopodobieństwie deszczu, możesz zastosować twierdzenie Bayesa, aby zaktualizować prognozy, biorąc pod uwagę prawdopodobieństwo a priori deszczu w podobny sposób, jak opisano tutaj . Istnieje również proste podejście, które można zastosować, tj. Obliczyć średnią ważoną swoich prognoz (jak opisano powyżej), w których wcześniejsze prawdopodobieństwo π jest traktowane jako dodatkowy punkt danych z pewną wcześniej określoną wagą w π jak w tym przykładzie IMDB (patrz także źródło , lub tu i tutaj do dyskusji; por. Genest i Schervish, 1985), tjpiπwπ
p^=(∑Ni=1piwi)+πwπ(∑Ni=1wi)+wπ(6)
Z twojego pytania nie wynika jednak, że masz jakąś a priori wiedzę na temat swojego problemu, więc prawdopodobnie użyłbyś jednolitego przeora, tj. Zakładałbyś z góry szansę na deszcz, a to tak naprawdę niewiele się zmienia w przypadku podanego przez ciebie przykładu.50%
Do radzenia sobie z zerami istnieje kilka różnych podejść. Najpierw powinieneś zauważyć, że szansy na deszcz nie jest tak naprawdę wiarygodną wartością, ponieważ mówi, że nie jest możliwe , aby padało. Podobne problemy często występują w przetwarzaniu języka naturalnego, gdy w danych nie obserwuje się niektórych wartości, które mogą wystąpić (np. Liczone są częstotliwości liter, aw danych nie występuje żadna niezwykła litera). W tym przypadku klasyczny estymator prawdopodobieństwa, tj0%
pi=ni∑ini
gdzie jest liczbą wystąpień i tej wartości (spośród kategorii d ), daje ci p i = 0, jeśli n i = 0 . Nazywa się to problemem zerowej częstotliwości . W przypadku takich wartości wiadomo, że ich prawdopodobieństwo jest niezerowe (istnieją!), Więc ta ocena jest oczywiście nieprawidłowa. Istnieje również praktyczny problem: mnożenie i dzielenie przez zera prowadzi do zer lub niezdefiniowanych wyników, więc zerowanie jest problematyczne.niidpi=0ni=0
Łatwą i powszechnie stosowaną poprawką jest dodanie do obliczeń stałej wartości , aby to zrobićβ
pi=ni+β(∑ini)+dβ
Wspólnym miejscem na jest 1 , to znaczy zastosowanie jednolitych przed oparciu o reguły Laplace'a dziedziczenia , 1 / 2 do oszacowania Krichevsky-Trofimov lub 1 / d do Schurmann-Grassberger (1996) estymatora. Zauważ jednak, że to, co tu robisz, polega na stosowaniu w swoim modelu informacji o braku danych (wcześniejszych), dzięki czemu uzyskuje subiektywny, bayesowski smak. Stosując to podejście, musisz pamiętać o przyjętych założeniach i brać je pod uwagę. Fakt, że mamy silne a prioriβ11/21/dwiedza, że w naszych danych nie powinno być żadnych zerowych prawdopodobieństw, bezpośrednio uzasadnia tu podejście bayesowskie. W twoim przypadku nie masz częstotliwości, ale prawdopodobieństwa, więc dodajesz bardzo małą wartość, aby skorygować zera. Zauważ jednak, że w niektórych przypadkach takie podejście może mieć złe konsekwencje (np. Przy logowaniu ), dlatego należy zachować ostrożność.
Schurmann, T. i P. Grassberger. (1996). Oszacowanie entropii sekwencji symboli. Chaos, 6, 41–427.
Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS and Zauberman, G. (2000). Skutki uśrednienia subiektywnych szacunków prawdopodobieństwa między sędziami i wewnątrz nich. Journal of Experimental Psychology: Applied, 6 (2), 130.
Baron, J., Mellers, BA, Tetlock, PE, Stone, E. and Ungar, LH (2014). Dwa powody, dla których zagregowane prognozy prawdopodobieństwa są bardziej ekstremalne. Analiza decyzji, 11 (2), 133-145.
Erev, I., Wallsten, TS i Budescu, DV (1994). Jednoczesna nadmierna i zbytnia pewność siebie: rola błędu w procesach oceny. Przegląd psychologiczny, 101 (3), 519.
Karmarkar, US (1978). Subiektywnie ważona użyteczność: opisowe rozszerzenie oczekiwanego modelu użyteczności. Zachowania organizacyjne i wydajność człowieka, 21 (1), 61–72.
Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV i Wallsten, TS (2014). Agregacja prognoz poprzez rekalibrację. Uczenie maszynowe, 95 (3), 261–289.
Genest, C., i Zidek, JV (1986). Łączenie rozkładów prawdopodobieństwa: krytyka i bibliografia z adnotacjami. Nauki statystyczne, 1 , 114–135.
Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE i Ungar, LH (2014). Łączenie wielu prognoz prawdopodobieństwa za pomocą prostego modelu logit. International Journal of Forecasting, 30 (2), 344–356.
Genest, C., i Schervish, MJ (1985). Modelowanie osądów ekspertów dla aktualizacji bayesowskiej. The Annals of Statistics , 1198-1212.
Dietrich, F., i List, C. (2014). Probabilistyczne zestawianie opinii. (Niepublikowane)