Jaka intuicja kryje się za dystrybucją wersji beta?


438

Oświadczenie: Nie jestem statystykiem, ale inżynierem oprogramowania. Większość mojej wiedzy statystycznej pochodzi z samokształcenia, dlatego wciąż mam wiele luk w zrozumieniu pojęć, które mogą wydawać się trywialne dla innych ludzi. Byłbym więc bardzo wdzięczny, gdyby odpowiedzi zawierały mniej szczegółowe warunki i więcej wyjaśnień. Wyobraź sobie, że rozmawiasz ze swoją babcią :)

Próbuję zrozumieć naturę z rozkładu beta - jaki powinien być stosowany i jak interpretować go w każdym przypadku. Gdybyśmy mówili o, powiedzmy, rozkładzie normalnym, można by to określić jako czas przyjazdu pociągu: najczęściej przyjeżdża on w samą porę, nieco rzadziej jest o 1 minutę wcześniej lub o 1 minutę spóźniony i bardzo rzadko przybywa z różnicą 20 minut od średniej. Jednolita dystrybucja opisuje w szczególności szansę każdego biletu w loterii. Rozkład dwumianowy można opisać za pomocą rzutów monetą i tak dalej. Ale czy istnieje takie intuicyjne wyjaśnienie od rozkładu beta ?

Powiedzmy, że i . Rozkład beta w tym przypadku wygląda następująco (wygenerowany w R):β = 0,5 B ( α , β )α=.99β=.5b(α,β)

wprowadź opis zdjęcia tutaj

Ale co to właściwie znaczy? Oś Y jest oczywiście gęstością prawdopodobieństwa, ale co znajduje się na osi X?

Byłbym bardzo wdzięczny za każde wyjaśnienie, z tym przykładem lub jakimkolwiek innym.


13
Oś y nie jest prawdopodobieństwem (co jest oczywiste, ponieważ z definicji prawdopodobieństwo nie może leżeć poza przedziałem , ale wykres ten rozciąga się do i - w zasadzie - do ). Jest to gęstość prawdopodobieństwa : prawdopodobieństwo na jednostkę (i opisałeś jako współczynnik). 50 x x[0,1]50xx
whuber

4
@ whuber: tak, rozumiem, co to jest PDF - to był tylko błąd w moim opisie. Dzięki za ważną notatkę!
zaprzyjaźnij się

1
Spróbuję znaleźć odniesienie, ale znam niektóre bardziej dziwaczne kształty uogólnionej dystrybucji Beta z formą mają zastosowania takie jak fizyka. Ponadto możesz dopasować go do danych eksperckich (min, tryb, maks.) W środowiskach ubogich w dane i często jest to lepsze niż użycie dystrybucji trójkątnej (niestety często używanej przez IE). za+(b-za)bmitza(α1,α2))
SecretAgentMan

Oczywiście nigdy nie podróżowałeś z firmą kolejową Deutsche Bahn. Byłbyś mniej optymistyczny.
rano

Odpowiedzi:


621

Krótka wersja jest taka, że ​​rozkład Beta można rozumieć jako reprezentujący rozkład prawdopodobieństw - to znaczy reprezentuje wszystkie możliwe wartości prawdopodobieństwa, gdy nie wiemy, jakie jest to prawdopodobieństwo. Oto moje ulubione intuicyjne wyjaśnienie tego:

Każdy, kto podąża za baseballem, zna średnie z mrugnięcia - po prostu ile razy gracz dostaje trafienie podstawowe podzielone przez liczbę, w których podnosi się w nietoperzu (więc jest to tylko procent pomiędzy 0i 1). .266jest ogólnie uważany za średnią średnią mrugnięcia, podczas gdy .300jest uważany za doskonały.

Wyobraź sobie, że mamy baseballistę i chcemy przewidzieć, jaka będzie jego średnia sezonowa mrugnięcia. Można powiedzieć, że do tej pory możemy po prostu użyć jego średniej mrugnięcia - ale będzie to bardzo słaba miara na początku sezonu! Jeśli gracz podbije raz bat i dostanie jeden, jego średnia mrugnięcia jest na krótko 1.000, a jeśli uderzy, jego średnia mrugnięcia wynosi 0.000. Nie poprawi się to znacznie, jeśli podejdziesz do nietoperza pięć lub sześć razy - możesz uzyskać szczęśliwą passę i uzyskać średnią 1.000, lub pechową passę i uzyskać średnią 0, z których żaden nie jest zdalnie dobrym prognostykiem tego, jak będziesz nietoperz w tym sezonie.

Dlaczego twoja średnia mrugnięcia w pierwszych kilku trafieniach nie jest dobrym prognostykiem twojej ostatecznej średniej mrugnięcia? Kiedy pierwszy atak nietoperza jest strajkiem, dlaczego nikt nie przewiduje, że nigdy nie zostanie trafiony przez cały sezon? Ponieważ wchodzimy w wcześniejsze oczekiwania. Wiemy, że w historii większość średnich mrugnięć w ciągu sezonu wahała się pomiędzy czymś takim, .215a .360z kilkoma wyjątkowymi wyjątkami po obu stronach. Wiemy, że jeśli gracz na początku otrzyma kilka strajków z rzędu, może to oznaczać, że skończy trochę gorzej niż przeciętnie, ale wiemy, że prawdopodobnie nie odbiega od tego zakresu.

Biorąc pod uwagę nasz średni problem mrugnięcia, który można przedstawić za pomocą rozkładu dwumianowego (seria sukcesów i niepowodzeń), najlepszym sposobem przedstawienia tych wcześniejszych oczekiwań (co w statystykach nazywamy uprzednim ) jest rozkładem beta - mówi: zanim zobaczymy, jak gracz wykonuje swój pierwszy zamach, z grubsza oczekujemy, że będzie to jego średnia mrugnięcia. Domena dystrybucji Beta jest (0, 1), podobnie jak prawdopodobieństwo, już wiemy, że jesteśmy na dobrej drodze - ale adekwatność Bety do tego zadania wykracza daleko poza to.

.27.21.35α=81β=219

curve(dbeta(x, 81, 219))

Beta (81, 219)

Wymyśliłem te parametry z dwóch powodów:

  • αα+β=8181+219=.270
  • Jak widać na wykresie, rozkład ten leży prawie całkowicie w granicach (.2, .35)- rozsądnego zakresu dla średniej mrugnięcia.

Zapytałeś, co oś x reprezentuje na wykresie gęstości rozkładu beta - tutaj reprezentuje jego średnią mrugnięcia. Zauważ więc, że w tym przypadku oś Y nie tylko jest prawdopodobieństwem (a ściślej gęstością prawdopodobieństwa), ale także oś X (średnia uderzenia jest w końcu tylko prawdopodobieństwem trafienia)! Rozkład Beta reprezentuje rozkład prawdopodobieństwa prawdopodobieństw .

Ale oto dlaczego dystrybucja Beta jest tak odpowiednia. Wyobraź sobie, że gracz otrzymuje jedno trafienie. Jego rekord sezonu jest teraz 1 hit; 1 at bat. Musimy następnie zaktualizować nasze prawdopodobieństwa - chcemy nieco przesunąć całą krzywą, aby odzwierciedlić nasze nowe informacje. Chociaż matematyka dla udowodnienia tego jest trochę zaangażowana ( pokazano tutaj ), wynik jest bardzo prosty . Nowa dystrybucja Beta będzie:

Beta(α0+trafienia,β0+tęskni)

α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

wprowadź opis zdjęcia tutaj

Zauważ, że prawie się nie zmienił - zmiana jest rzeczywiście niewidoczna gołym okiem! (To dlatego, że jedno trafienie tak naprawdę nic nie znaczy).

Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

wprowadź opis zdjęcia tutaj

Zauważ, że krzywa jest teraz zarówno cieńsza, jak i przesunięta w prawo (wyższa średnia mrugnięcia) niż kiedyś - lepiej rozumiemy, jaka jest średnia mrugnięcia gracza.

αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270

Zatem rozkład Beta najlepiej nadaje się do reprezentowania rozkładu prawdopodobieństwa - przypadek, w którym nie wiemy z góry, jakie jest prawdopodobieństwo, ale mamy pewne uzasadnione domysły.


5
@ffriend: Cieszę się, że mam nadzieję, że helped- postępować baseballu (w przeciwnym razie zastanawiam się, czy jest to zrozumiałe!)
David Robinson

11
Oto podobny przykład od Johna Cooka wykorzystującego binarne rankingi sprzedawców Amazon z różną liczbą recenzji. Dyskusja na temat wyboru przeora w komentarzach jest szczególnie pouczająca: johndcook.com/blog/2011/09/27/bayesian-amazon/#comments
Dimitriy V.

4
α0=β0=1/2)

4
+ Podoba mi się twoje wyjaśnienie, w jaki sposób aktualizujesz dystrybucję, gdy masz więcej danych.
Mike Dunlavey,

2
@ user27997 Te podały pożądaną średnią 0,27 i odchylenie standardowe, które jest bardzo z grubsza realistyczne dla średnich mrugnięcia (około 0,025). Nawiasem mówiąc, podam wyjaśnienie jak obliczyć a i p od żądanej średniej i wariancji tutaj .
David Robinson

48

Dystrybucja Beta służy do modelowania rzeczy, które mają ograniczony zakres, jak 0 do 1.

Przykładami są prawdopodobieństwo sukcesu w eksperymencie mającym tylko dwa wyniki, takie jak sukces i porażka. Jeśli wykonasz ograniczoną liczbę eksperymentów, a niektóre zakończą się sukcesem, możesz przedstawić to, co powiesz na podstawie wersji beta.

Innym przykładem są statystyki zamówień . Na przykład, jeśli wygenerujesz kilka (powiedzmy 4) jednolitych 0,1 liczb losowych i posortujesz je, jaki jest rozkład trzeciej?

nss>1bmitza(s+1,(n-s)+1)

Więcej o tym ...


41

(0,1)

U1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Uja)U(n)=max(Uja)U(k)Beta(k,n+1-k)k=1,,n

Ten wynik pokazuje, że rozkłady Beta naturalnie pojawiają się w matematyce i mają kilka interesujących zastosowań w matematyce.


28

Istnieją dwie główne motywacje:

Po pierwsze, rozkład beta jest sprzężony przed rozkładem Bernoulliego. Oznacza to, że jeśli masz nieznane prawdopodobieństwo, takie jak stronniczość monety, którą szacujesz za pomocą powtarzanych rzutów monetą, wówczas prawdopodobieństwo wywołane przez nieznane stronniczość przez sekwencję rzutów monetą jest rozkładem beta.

log(x)log(1-x)x[0,1]x1,,xn

Dystrybucja beta nie jest szczególna do ogólnego modelowania rzeczy powyżej [0,1], ponieważ wiele dystrybucji można obciąć do tego wsparcia i w wielu przypadkach są bardziej odpowiednie.


23

wprowadź opis zdjęcia tutaj

Załóżmy, że sprzedawca na stronie e-commerce otrzymuje 500 ocen, z czego 400 jest dobrych, a 100 złych.

p

Naiwna jakość pod względem ocen sprzedawcy wynosi 80%, ponieważ 0,8 = 400 / 500. Ale „prawdziwej” jakości pod względem ocen nie znamy.

p=77%

p

α=400+1β=100+1

p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/


3
Dziękuję za twój wkład! Zastanawiam się jednak nad czymś: chociaż legenda histogramu stwierdza, że ​​pokazują gęstości beta , wydaje się, że twierdzą one, że opisują również wyniki symulacji dwumianowych („jak często to się dzieje w symulacji”). Ale te dwie rzeczy są różne, nawet jeśli na ilustracji wydają się dość bliskie. (Jest to konsekwencja bliskiej normalności wersji beta z dużymi parametrami i twierdzeniem Central Limit dla rozkładów dwumianowych.)
whuber

To dobra uwaga! Ale nie jestem pewien, jak odpowiednio sformułować. Gdybym tylko nakreślił histogram, to oczywiście nie zobaczyłbyś dużej gęstości, biorąc pod uwagę jej wielkość. Więc tak, histogram jest właściwie nie tylko skalowany w dół, ale faktycznie (szacunkową) gęstość oryginalnego histogramu. Biorąc pod uwagę liczbę przebiegów, mógłbym również obliczyć współczynnik i skalować go w dół liniowo, ale wyglądałby prawie dokładnie tak samo PLUS, co (właściwie) chcę porównać to gęstość beta z gęstością wyniku symulacji ( gęstość oryginalnego histogramu).
Raffael,

8

Do tej pory przewaga odpowiedzi obejmowała uzasadnienie generowania RV Beta jako pierwszeństwa dla proporcji próbki, a jedna sprytna odpowiedź wiązała RV Beta z porządkowaniem statystyk.

Rozkłady beta powstają również z prostej zależności między dwoma RV Gamma (k_i, 1), i = 1,2 nazywają je X i Y. X / (X + Y) ma rozkład Beta.

RV Gamma mają już swoje uzasadnienie w modelowaniu czasów przyjazdu dla niezależnych zdarzeń, więc nie zajmę się tym, ponieważ nie jest to twoje pytanie. Ale „ułamek czasu” spędzony na wykonaniu jednego z dwóch zadań wykonanych po kolei naturalnie nadaje się do dystrybucji Beta.


1
+1 Dziękujemy za zwrócenie uwagi na użycie Gammy do utworzenia dystrybucji beta. Słyszałem, że jeśli chcesz uogólnić wersję beta na Dirichleta, po prostu umieść więcej mianowników w mianowniku. Może statystyki to po prostu o tym wiedzą, ale dla mnie było to bardzo przydatne, gdy spojrzałem na przedziały ufności dla obserwacji kategorycznych.
Mike Dunlavey

4

x(1-x)fa(x;α,β)=stałyxα-1(1-x)β-11/b(α,β)αβjest jak „ciężar” wkładu w niepowodzenie. Masz dwuwymiarową przestrzeń parametrów (jeden dla wkładu sukcesów, a drugi dla wkładu porażek), co sprawia, że ​​trudno jest myśleć i rozumieć.


3

W cytowanym przykładzie parametry to alfa = 81 i beta = 219 z poprzedniego roku [81 trafień w 300 u nietoperzy lub (81 i 300 - 81 = 219)]

Nie wiem, jak nazywają wcześniejsze założenie 81 trafień i 219 outsów, ale w języku angielskim to założenie a priori.

Zwróć uwagę, jak w trakcie sezonu krzywa przesuwa się w lewo lub w prawo, a prawdopodobieństwo modalne przesuwa się w lewo lub w prawo, ale nadal istnieje krzywa.

Zastanawiam się, czy Laa Dużych Liczb w końcu się trzyma i obniża średnią mrugnięcia z powrotem do.

Aby oszacować ogólnie alfa i beta, należy wziąć pełną liczbę wcześniejszych wystąpień (u nietoperzy), znaną średnią mrugnięcia, uzyskać całkowitą liczbę trafień (alfa), beta lub sumę całkowitą minus porażki) i voila - masz swoją formułę. Następnie przeprowadź dodatkowe dane, jak pokazano.


2

fa(X)=tanh((x/p)n)

Nawiasem mówiąc, co słychać, jeśli otrzymujesz rozkład wielkości z obserwacji mikroskopowej i masz rozkład cząstek w liczbie, a Twoim celem jest praca z rozkładem objętości? Prawie obowiązkowe jest uzyskanie pierwotnego rozkładu liczbowego ograniczonego po prawej stronie. Tak więc transformacja jest bardziej spójna, ponieważ masz pewność, że w nowym rozkładzie objętości nie pojawi się żaden tryb, ani mediana, ani średni rozmiar poza przedziałem czasu pracy. Poza tym unikasz efektu grenlandzkiej Afryki.

Transformacja jest bardzo łatwa, jeśli masz regularne kształty, np. Kulę lub pryzmat. Należy dodać trzy jednostki do parametru alfa rozkładu liczbowego beta i uzyskać rozkład objętości.


1
Witamy na stronie. Czy miało to stanowić odpowiedź na pytanie PO? Czy możesz wyjaśnić, w jaki sposób odnosi się to do intuicji stojącej za dystrybucją wersji beta?
gung

Edytuj, aby wyjaśnić intuicję dotyczącą dystrybucji wersji beta.
Glen_b

1

Myślę, że za dystrybucją beta NIE MA intuicji! Dystrybucja beta jest po prostu bardzo elastyczną dystrybucją z asortymentem FIX! A dla liczb całkowitych a i b jest nawet łatwo sobie poradzić. Wiele specjalnych przypadków wersji beta ma swoje natywne znaczenie, takie jak jednolity rozkład. Więc jeśli dane muszą być modelowane w ten sposób lub z nieco większą elastycznością, to beta jest bardzo dobrym wyborem.


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.