Czy istnieje jakaś różnica między częstym a bayesowskim w definicji prawdopodobieństwa?

21

Niektóre źródła podają, że funkcja prawdopodobieństwa nie jest prawdopodobieństwem warunkowym, niektóre twierdzą, że tak. To jest dla mnie bardzo mylące.

Według większości źródeł, które widziałem, prawdopodobieństwo rozkładu z parametrem powinno być iloczynem funkcji masy prawdopodobieństwa, biorąc pod uwagę próbek : $\theta$ $n$ $x_i$

L (θ) = L (x_{1}, x_{2}, . . ., x_{n}; θ) = \prod_{i = 1}^{n} p (x_{i}; θ)

$L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^n p(x_i;\theta)$

Na przykład w regresji logistycznej używamy algorytmu optymalizacyjnego, aby zmaksymalizować funkcję wiarygodności (Maximum Likelihood Estimation), aby uzyskać optymalne parametry, a zatem ostateczny model LR. Biorąc pod uwagę próbek treningowych, które zakładamy, że są od siebie niezależne, chcemy zmaksymalizować iloczyn prawdopodobieństw (lub połączonych funkcji masy prawdopodobieństwa). Wydaje mi się to dość oczywiste. $n$

Zgodnie z relacją między: prawdopodobieństwem, prawdopodobieństwem warunkowym i wskaźnikiem niepowodzenia , „prawdopodobieństwo nie jest prawdopodobieństwem i nie jest prawdopodobieństwem warunkowym”. Wspomniał także: „prawdopodobieństwo jest prawdopodobieństwem warunkowym tylko w bayesowskim rozumieniu prawdopodobieństwa, tj. Jeśli założymy, że jest zmienną losową”. $\theta$

Czytałem o różnych perspektywach leczenia problemu uczenia się między częstym a bayesowskim.

Według źródła, dla wnioskowania bayesowskiego, mamy apriorycznie , prawdopodobieństwo , i chcemy uzyskać tylne , używając twierdzenia bayesowskiego: $P(\theta)$ $P(X|\theta)$ $P(\theta|X)$

P (θ | X) = \frac{P (X | θ) \times P (θ)}{P (X)}

$P(\theta|X)=\dfrac{P(X|\theta) \times P(\theta)}{P(X)}$

Nie znam Bayesian Inference. Dlaczego który jest rozkładem obserwowanych danych w zależności od jego parametrów, jest również określany jako prawdopodobieństwo? W Wikipedii jest napisane, że czasami jest napisane . Co to znaczy? $P(X|\theta)$ $L(\theta|X)=p(X|\theta)$

czy istnieje różnica między definicjami Frequentist a Bayesian dotyczącymi prawdopodobieństwa?

Dzięki.

EDYTOWAĆ:

Istnieją różne sposoby interpretacji twierdzenia Bayesa - interpretacja Bayesa i interpretacja częstości (patrz: twierdzenie Bayesa - Wikipedia ).

— Tyler 傲来国主
źródło

2

Dwie kluczowe właściwości prawdopodobieństwa to: (a) że jest to funkcja dla konkretnego a nie na odwrót, i (b) można ją poznać tylko do dodatniej stałej proporcjonalności. To nie jest prawdopodobieństwo (warunkowe lub inne), ponieważ nie trzeba sumować ani całkować z w całym

θ

$\theta$

X

$X$

1

$1$

θ

$\theta$

— Henry

2

Zobacz stats.stackexchange.com/q/224037/35989

— Tim

24

W definicji nie ma różnicy - w obu przypadkach funkcją prawdopodobieństwa jest dowolna funkcja parametru, która jest proporcjonalna do gęstości próbkowania. Ściśle mówiąc, nie wymagamy, aby prawdopodobieństwo było równe gęstości próbkowania; musi być tylko proporcjonalny, co pozwala usuwać multiplikatywne części, które nie zależą od parametrów.

Podczas gdy gęstość próbkowania jest interpretowana jako funkcja danych, pod warunkiem określonej wartości parametru, funkcja prawdopodobieństwa jest interpretowana jako funkcja parametru dla stałego wektora danych. Zatem w standardowym przypadku danych IID masz:

L_{x} (θ) \propto \prod_{i = 1}^{n} p (x_{i} | θ) .

$L_\mathbf{x}(\theta) \propto \prod_{i=1}^n p(x_i|\theta).$

W statystyce bayesowskiej twierdzenie Bayesa zwykle wyrażamy w najprostszej postaci jako:

π (θ | x) \propto π (θ) \cdot L_{x} (θ) .

$\pi (\theta|\mathbf{x}) \propto \pi(\theta) \cdot L_\mathbf{x}(\theta).$

Wyrażenie dla twierdzenia Bayesa podkreśla, że oba jego multilikatywne elementy są funkcjami parametru, który jest przedmiotem zainteresowania gęstości tylnej. (Ten wynik proporcjonalności w pełni definiuje regułę, ponieważ tylna jest gęstością, a zatem istnieje wyjątkowa stała mnożenia, która sprawia, że integruje się z jedną). Jak zauważyłeś w swojej aktualizacji, filozofia bayesowska i częstokrzyska mają różne struktury interpretacyjne. W paradygmacie częstokroć parametr jest ogólnie traktowany jako „stała stała”, a zatem nie przypisuje się mu miary prawdopodobieństwa. Dlatego częstokroć odrzucają przypisanie wcześniejszego lub późniejszego rozkładu parametru (więcej dyskusji na temat tych różnic filozoficznych i interpretacyjnych, patrz np. O'Neill 2009 ).

— Przywróć Monikę
źródło

14

Funkcja prawdopodobieństwa jest definiowana niezależnie od lub przed statystycznym paradygmatem używanym do wnioskowania, jako funkcja, (lub ) parametru , funkcja zależy to lub jest zindeksowane obserwacjami dostępnymi dla tego wnioskowania. A także pośrednio w zależności od rodziny modeli prawdopodobieństwa wybranych do reprezentowania zmienności lub losowości danych. Dla danej wartości pary wartość tej funkcji jest dokładnie identyczna z wartością gęstości modelu przy $-$ $-$ $L(\theta;x)$ $L(\theta|x)$ $\theta$ $-$ $-$ $x$ $(\theta,x)$ $x$ po zindeksowaniu za pomocą parametru . $\theta$ Co często jest z grubsza tłumaczone jako „prawdopodobieństwo danych”.

Aby zacytować więcej autorytatywnych i historycznych źródeł niż wcześniejsza odpowiedź na tym forum,

„Możemy dyskutować o prawdopodobieństwie wystąpienia wielkości, które można zaobserwować ... w związku z wszelkimi hipotezami, które można zasugerować w celu wyjaśnienia tych obserwacji. Nie wiemy nic o prawdopodobieństwie hipotez. [Możemy] ustalić prawdopodobieństwo hipotez ... na podstawie obliczeń z obserwacji: ... mówienie o prawdopodobieństwie ... obserwowalnej wielkości nie ma znaczenia. " RA Fisher, O `` prawdopodobnym błędzie '' współczynnika korelacji wydedukowanym z małej próbki . Metron 1, 1921, s. 25

i

„Z próbki możemy ustalić prawdopodobieństwo jakiejkolwiek określonej wartości r, jeśli zdefiniujemy prawdopodobieństwo jako wielkość proporcjonalną do prawdopodobieństwa, że z populacji o określonej wartości r próbka o obserwowanej wartości r , należy uzyskać. ” RA Fisher, O `` prawdopodobnym błędzie '' współczynnika korelacji wydedukowanym z małej próbki . Metron 1, 1921, s. 24

który wspomina o proporcjonalności, którą Jeffreys (i ja) uważają za zbędną:

„... prawdopodobieństwo, dogodny termin wprowadzony przez profesora RA Fishera, choć w jego użyciu czasami jest mnożony przez stały czynnik. Takie jest prawdopodobieństwo obserwacji na podstawie oryginalnych informacji i omawianej hipotezy”. H. Jeffreys, Teoria prawdopodobieństwa , 1939, s. 28

Cytując tylko jedno zdanie z doskonałego historycznego wpisu do tematu Johna Aldricha (Statistics Science, 1997):

„Fisher (1921, s. 24) przeredagował to, co napisał w 1912 r. O odwrotnym prawdopodobieństwie, rozróżniając operacje matematyczne, które można wykonać na gęstościach prawdopodobieństwa i prawdopodobieństwach: prawdopodobieństwo nie jest„ elementem różnicowym ”, nie można go zintegrować . ” J. Aldrich, RA Fisher and the Making of Maximum Likelihood 1912 - 1922 , 1997 , s. 9

Przyjmując podejście bayesowskie, funkcja prawdopodobieństwa nie zmienia kształtu ani charakteru. Nadal jest gęstością w indeksie indeksowanym przez . Dodatkową funkcją jest to, że ponieważ jest również wyposażony model probabilistyczny, znane rozkładzie gęstości na indeksowanych przez mogą być również interpretowane jako warunkowego gęstości uzależnione od realizacji : w Bayesa modelowania , jedna realizacja jest tworzona z wcześniejszego, z gęstością , a następnie realizacja , $x$ $\theta$ $\theta$ $x$ $\theta$ $\theta$ $\theta$ $\pi(\cdot)$ $X$ $x$ Jest wytwarzany z rozkładu o gęstości , indeksowane $L(\theta|\cdot)$ $\theta$ $(\theta,x)$

π (θ) \times L. (θ | x)

$\pi(\theta) \times L(\theta|x)$

θ

$\theta$

θ

$\theta$

x

$x$

π (θ | x) \propto π (θ) \times L. (θ | x)

$\pi(\theta|x) \propto \pi(\theta) \times L(\theta|x)$

tylny \propto wcześniejszy \times prawdopodobieństwo

$\text{posterior} \propto \text{prior} \times \text{likelihood}$ znaleziono od Jeffreysa (1939) .

Uwaga: Wprowadzone na stronie Wikipedii rozróżnienie funkcji prawdopodobieństwa między prawdopodobieństwem częstości a bayesowskim uważam za mylące i niepotrzebne lub po prostu błędne, ponieważ znaczna większość obecnych statystów bayesowskich nie stosuje prawdopodobieństwa jako substytutu prawdopodobieństwa z późniejszego okresu. Podobnie „różnica” wskazana na stronie Wikipedii o twierdzeniu Bayesa brzmi bardziej myląco niż cokolwiek innego, ponieważ twierdzenie to jest twierdzeniem prawdopodobieństwa o zmianie warunkowania, niezależnym od paradygmatu lub od znaczenia zdania prawdopodobieństwa. ( Moim zdaniem jest to bardziej definicja niż twierdzenie!)

— Xi'an
źródło

1

Jako mały dodatek:

Nazwa „Prawdopodobieństwo” jest całkowicie myląca, ponieważ istnieje wiele różnych możliwych znaczeń. Nie tylko w „normalnym języku”, ale także w statystykach. Mogę wymyślić co najmniej trzy różne, ale nawet powiązane wyrażenia, z których wszystkie nazywane są prawdopodobieństwem; nawet w podręcznikach.

To powiedziawszy, biorąc pod uwagę multiplikatywną definicję Prawdopodobieństwa, nie ma w niej nic, co przekształciłoby ją w jakiekolwiek prawdopodobieństwo w sensie jej (np. Aksjomatycznej) definicji. Jest to liczba o wartościach rzeczywistych. Możesz zrobić wiele rzeczy, aby obliczyć lub powiązać to z prawdopodobieństwem (przyjmowanie współczynników, obliczanie priorytetów i pokoleń itp.) - ale samo w sobie nie ma znaczenia pod względem prawdopodobieństwa.

Odpowiedź była mniej lub bardziej przestarzała z powodu znacznie bardziej wyczerpującej i wyczerpującej odpowiedzi Xi'ana. Ale na żądanie, niektóre definicje prawdopodobieństwa w podręczniku:

$L (\vec{x}; \theta)$
$\theta$
stosunek wartości Prawdopodobieństwa dla różnych priorytetów (np. w zadaniu klasyfikacji) ... a ponadto różne znaczenia, które można próbować przypisać (ab) użyciu wyżej wymienionych elementów.

— cherub
źródło

1

Byłaby to znacznie lepsza odpowiedź, gdybyś mógł dodać przykłady / referencje, ponieważ mogę wymyślić co najmniej trzy różne, ale nawet pokrewne wyrażenia, z których wszystkie nazywane są prawdopodobieństwem; nawet w podręcznikach .

— kjetil b halvorsen