Dlaczego w twierdzeniu Bayesa wymagany jest czynnik normalizujący?

20

Twierdzenie Bayesa idzie

P. (Model | dane) = \frac{P. (Model) \times P. (dane | Model)}{P. (dane)}

$P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})}$

Wszystko w porządku. Ale gdzieś przeczytałem:

Zasadniczo P (dane) jest tylko stałą normalizującą, tj. Stałą, która powoduje zintegrowanie gęstości tylnej z jedną.

Wiemy, że i . $0 \leq P(\textrm{model}) \leq 1$ $0 \leq P(\textrm{data}|\textrm{model}) \leq 1$

Dlatego musi mieć wartość od 0 do 1. W takim przypadku, dlaczego potrzebujemy stałej normalizującej, aby zintegrować tylną z jedną? $P(\textrm{model}) \times P(\textrm{data}|\textrm{model})$

— Sreejith Ramakrishnan
źródło

4

Kiedy pracujesz z gęstościami prawdopodobieństwa , jak wspomniano w tym poście, nie możesz już wnioskować 0 <= P(model) <= 1ani 0 <= P(data/model) <= 1, ponieważ jeden (lub nawet oba!) Z nich może przekroczyć (a nawet być nieskończony). Zobacz stats.stackexchange.com/questions/4220 .

1

$1$

— whuber

1

Nie jest tak, że ponieważ ta niejasna notacja reprezentuje zintegrowane prawdopodobieństwo danych, a nie prawdopodobieństwo.

P. (dane | Model) \leq 1

$P(\textrm{data}|\textrm{model})\le 1$

— Xi'an,

15

Po pierwsze , całka „prawdopodobieństwa x wcześniej” nie jest koniecznie 1 .

Nie jest prawdą, że jeśli:

$0 \leq P(\textrm{model}) \leq 1$ i $0 \leq P(\textrm{data}|\textrm{model}) \leq 1$

wówczas całka tego produktu w odniesieniu do modelu (rzeczywiście do parametrów modelu) wynosi 1.

Demonstracja. Wyobraź sobie dwie odrębne gęstości:

P. (Model) = [0,5, 0,5] (to się nazywa „wcześniejsze”) P. (dane | Model) = [0,80, 0.2] (nazywa się to „prawdopodobieństwem”)

$P(\textrm{model}) = [0.5, 0.5] \text{ (this is called "prior")}\\ P(\textrm{data | model}) = [0.80, 0.2] \text{ (this is called "likelihood")}\\$

Jeśli pomnożymy je oba, otrzymamy: co nie jest prawidłową gęstością, ponieważ nie integruje się z jedną:

[0,40, 0,25]

$[0.40, 0.25]$

0,40 + 0,25 = 0,65

$0.40 + 0.25 = 0.65$

\sum_{model_params} P. (Model) P. (dane | Model) = \sum_{model_params} P. (model, dane) = P. (dane) = 0,65

$\sum_{\text{model_params}} P(\text{model}) P(\text{data | model}) = \sum_\text{model_params} P(\text{model, data}) = P(\text{data}) = 0.65$

(przepraszam za kiepską notację. Napisałem trzy różne wyrażenia tego samego, ponieważ można je wszystkie zobaczyć w literaturze)

Po drugie , „prawdopodobieństwo” może być dowolne, a nawet jeśli jest gęstością, może mieć wartości wyższe niż 1 .

Jak powiedział @whuber, czynniki te nie muszą wynosić od 0 do 1. Potrzebują, aby ich całka (lub suma) wynosiła 1.

Po trzecie [dodatkowe] „koniugaty” to twoi przyjaciele, którzy pomogą ci znaleźć stałą normalizującą .

P. (Model | dane) \propto P. (dane | Model) P. (Model)

$P(\textrm{model}|\textrm{data}) \propto P(\textrm{data}|\textrm{model}) P(\text{model})$

— Alberto
źródło

+1. To jedyna odpowiedź, która faktycznie odpowiada pierwotnemu pytaniu, dlaczego stała normalizacyjna jest potrzebna, aby zintegrować z nią tylną . To, co robisz później z późniejszym (np. Wnioskowanie MCMC lub obliczanie prawdopodobieństw bezwzględnych) to inna sprawa.

— Pedro Mediano

P (m o d e l) = [0.5, 0.5]

$P(model)=[0.5,0.5]$

σ^{2} = 1

$\sigma^2=1$

μ

$\mu$

P (μ) = [0.5, 0.5]

$P(\mu) = [0.5, 0.5]$

μ

$\mu$

12

Krótka odpowiedź na twoje pytanie jest taka, że bez mianownika wyrażenie po prawej stronie jest jedynie prawdopodobieństwem , a nie prawdopodobieństwem , które może mieścić się w zakresie od 0 do 1. „Stała normalizująca” pozwala nam uzyskać prawdopodobieństwo wystąpienie zdarzenia, a nie tylko względne prawdopodobieństwo tego zdarzenia w porównaniu z innym.

— heropup
źródło

8

Masz już dwie prawidłowe odpowiedzi, ale pozwól mi dodać dwa centy.

Twierdzenie Bayesa jest często definiowane jako:

P. (Model | dane) \propto P. (Model) \times P. (dane | Model)

$P(\text{model}~ | ~\text{data}) \propto P(\text{model}) \times P(\text{data}~|~\text{model})$

ponieważ jedynym powodem, dla którego potrzebujesz stałej jest integracja z 1 (zobacz odpowiedzi innych). Nie jest to potrzebne w większości podejść symulacyjnych MCMC do analizy bayesowskiej, a zatem stała jest usuwana z równania. W przypadku większości symulacji nie jest to nawet wymagane.

Ja kocham opisu przez Kruschke : ostatni szczeniak (stały) jest senna, bo nie ma nic do zrobienia w tej formule.

wprowadź opis zdjęcia tutaj

Również niektórzy, jak Andrew Gelman, uważają stałą za „przereklamowaną” i „w zasadzie bez znaczenia, gdy ludzie używają płaskich priorów” (zobacz dyskusję tutaj ).

— Tim
źródło

9

+1 do wprowadzenia szczeniąt. „Żadne zwierzęta nie zostały skrzywdzone podczas pisania tej odpowiedzi” :)

— alberto,