Krótka wersja jest taka, że rozkład Beta można rozumieć jako reprezentujący rozkład prawdopodobieństw - to znaczy reprezentuje wszystkie możliwe wartości prawdopodobieństwa, gdy nie wiemy, jakie jest to prawdopodobieństwo. Oto moje ulubione intuicyjne wyjaśnienie tego:
Każdy, kto podąża za baseballem, zna średnie z mrugnięcia - po prostu ile razy gracz dostaje trafienie podstawowe podzielone przez liczbę, w których podnosi się w nietoperzu (więc jest to tylko procent pomiędzy 0
i 1
). .266
jest ogólnie uważany za średnią średnią mrugnięcia, podczas gdy .300
jest uważany za doskonały.
Wyobraź sobie, że mamy baseballistę i chcemy przewidzieć, jaka będzie jego średnia sezonowa mrugnięcia. Można powiedzieć, że do tej pory możemy po prostu użyć jego średniej mrugnięcia - ale będzie to bardzo słaba miara na początku sezonu! Jeśli gracz podbije raz bat i dostanie jeden, jego średnia mrugnięcia jest na krótko 1.000
, a jeśli uderzy, jego średnia mrugnięcia wynosi 0.000
. Nie poprawi się to znacznie, jeśli podejdziesz do nietoperza pięć lub sześć razy - możesz uzyskać szczęśliwą passę i uzyskać średnią 1.000
, lub pechową passę i uzyskać średnią 0
, z których żaden nie jest zdalnie dobrym prognostykiem tego, jak będziesz nietoperz w tym sezonie.
Dlaczego twoja średnia mrugnięcia w pierwszych kilku trafieniach nie jest dobrym prognostykiem twojej ostatecznej średniej mrugnięcia? Kiedy pierwszy atak nietoperza jest strajkiem, dlaczego nikt nie przewiduje, że nigdy nie zostanie trafiony przez cały sezon? Ponieważ wchodzimy w wcześniejsze oczekiwania. Wiemy, że w historii większość średnich mrugnięć w ciągu sezonu wahała się pomiędzy czymś takim, .215
a .360
z kilkoma wyjątkowymi wyjątkami po obu stronach. Wiemy, że jeśli gracz na początku otrzyma kilka strajków z rzędu, może to oznaczać, że skończy trochę gorzej niż przeciętnie, ale wiemy, że prawdopodobnie nie odbiega od tego zakresu.
Biorąc pod uwagę nasz średni problem mrugnięcia, który można przedstawić za pomocą rozkładu dwumianowego (seria sukcesów i niepowodzeń), najlepszym sposobem przedstawienia tych wcześniejszych oczekiwań (co w statystykach nazywamy uprzednim ) jest rozkładem beta - mówi: zanim zobaczymy, jak gracz wykonuje swój pierwszy zamach, z grubsza oczekujemy, że będzie to jego średnia mrugnięcia. Domena dystrybucji Beta jest (0, 1)
, podobnie jak prawdopodobieństwo, już wiemy, że jesteśmy na dobrej drodze - ale adekwatność Bety do tego zadania wykracza daleko poza to.
.27
.21
.35
α = 81β= 219
curve(dbeta(x, 81, 219))
Wymyśliłem te parametry z dwóch powodów:
- αα + β= 8181 + 219= .270
- Jak widać na wykresie, rozkład ten leży prawie całkowicie w granicach
(.2, .35)
- rozsądnego zakresu dla średniej mrugnięcia.
Zapytałeś, co oś x reprezentuje na wykresie gęstości rozkładu beta - tutaj reprezentuje jego średnią mrugnięcia. Zauważ więc, że w tym przypadku oś Y nie tylko jest prawdopodobieństwem (a ściślej gęstością prawdopodobieństwa), ale także oś X (średnia uderzenia jest w końcu tylko prawdopodobieństwem trafienia)! Rozkład Beta reprezentuje rozkład prawdopodobieństwa prawdopodobieństw .
Ale oto dlaczego dystrybucja Beta jest tak odpowiednia. Wyobraź sobie, że gracz otrzymuje jedno trafienie. Jego rekord sezonu jest teraz 1 hit; 1 at bat
. Musimy następnie zaktualizować nasze prawdopodobieństwa - chcemy nieco przesunąć całą krzywą, aby odzwierciedlić nasze nowe informacje. Chociaż matematyka dla udowodnienia tego jest trochę zaangażowana ( pokazano tutaj ), wynik jest bardzo prosty . Nowa dystrybucja Beta będzie:
Beta ( α0+ trafienia , β0+ chybienie )
α0β0αβBeta (81+1,219)
curve(dbeta(x, 82, 219))
Zauważ, że prawie się nie zmienił - zmiana jest rzeczywiście niewidoczna gołym okiem! (To dlatego, że jedno trafienie tak naprawdę nic nie znaczy).
Beta (81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
Zauważ, że krzywa jest teraz zarówno cieńsza, jak i przesunięta w prawo (wyższa średnia mrugnięcia) niż kiedyś - lepiej rozumiemy, jaka jest średnia mrugnięcia gracza.
αα + β81 + 10081 + 100 + 219 + 200= .303100100 + 200= .3338181 + 219= .270
Zatem rozkład Beta najlepiej nadaje się do reprezentowania rozkładu prawdopodobieństwa - przypadek, w którym nie wiemy z góry, jakie jest prawdopodobieństwo, ale mamy pewne uzasadnione domysły.