Funkcja prawdopodobieństwa jest definiowana niezależnie od lub przed statystycznym paradygmatem używanym do wnioskowania, jako funkcja, (lub ) parametru , funkcja zależy to lub jest zindeksowane obserwacjami dostępnymi dla tego wnioskowania. A także pośrednio w zależności od rodziny modeli prawdopodobieństwa wybranych do reprezentowania zmienności lub losowości danych. Dla danej wartości pary wartość tej funkcji jest dokładnie identyczna z wartością gęstości modelu przy- L ( θ ; x ) L ( θ | x ) θ - - x ( θ , x ) x θ--L ( θ ; x )L ( θ | x )θ--x( θ , x )xpo zindeksowaniu za pomocą parametru . θCo często jest z grubsza tłumaczone jako „prawdopodobieństwo danych”.
Aby zacytować więcej autorytatywnych i historycznych źródeł niż wcześniejsza odpowiedź na tym forum,
„Możemy dyskutować o prawdopodobieństwie wystąpienia wielkości, które można zaobserwować ... w związku z wszelkimi hipotezami, które można zasugerować w celu wyjaśnienia tych obserwacji. Nie wiemy nic o prawdopodobieństwie hipotez. [Możemy] ustalić prawdopodobieństwo hipotez ... na podstawie obliczeń z obserwacji: ... mówienie o prawdopodobieństwie ... obserwowalnej wielkości nie ma znaczenia. " RA Fisher, O `` prawdopodobnym błędzie '' współczynnika korelacji wydedukowanym z małej próbki . Metron 1, 1921, s. 25
i
„Z próbki możemy ustalić prawdopodobieństwo jakiejkolwiek określonej wartości r, jeśli zdefiniujemy prawdopodobieństwo jako wielkość proporcjonalną do prawdopodobieństwa, że z populacji o określonej wartości r próbka o obserwowanej wartości r , należy uzyskać. ” RA Fisher, O `` prawdopodobnym błędzie '' współczynnika korelacji wydedukowanym z małej próbki . Metron 1, 1921, s. 24
który wspomina o proporcjonalności, którą Jeffreys (i ja) uważają za zbędną:
„... prawdopodobieństwo, dogodny termin wprowadzony przez profesora RA Fishera, choć w jego użyciu czasami jest mnożony przez stały czynnik. Takie jest prawdopodobieństwo obserwacji na podstawie oryginalnych informacji i omawianej hipotezy”. H. Jeffreys, Teoria prawdopodobieństwa , 1939, s. 28
Cytując tylko jedno zdanie z doskonałego historycznego wpisu do tematu Johna Aldricha (Statistics Science, 1997):
„Fisher (1921, s. 24) przeredagował to, co napisał w 1912 r. O odwrotnym prawdopodobieństwie, rozróżniając operacje matematyczne, które można wykonać na gęstościach prawdopodobieństwa i prawdopodobieństwach: prawdopodobieństwo nie jest„ elementem różnicowym ”, nie można go zintegrować . ” J. Aldrich, RA Fisher and the Making of Maximum Likelihood 1912 - 1922 , 1997 , s. 9
Przyjmując podejście bayesowskie, funkcja prawdopodobieństwa nie zmienia kształtu ani charakteru. Nadal jest gęstością w indeksie indeksowanym przez . Dodatkową funkcją jest to, że ponieważ jest również wyposażony model probabilistyczny, znane rozkładzie gęstości na indeksowanych przez mogą być również interpretowane jako warunkowego gęstości uzależnione od realizacji : w Bayesa modelowania , jedna realizacja jest tworzona z wcześniejszego, z gęstością , a następnie realizacja ,θ θ x θ θ θ π ( ⋅ ) X xxθθxθθθπ( ⋅ )XxJest wytwarzany z rozkładu o gęstości , indeksowaneL ( θ | ⋅ )θ( θ , x )
π( θ ) × L ( θ | x )
θθxπ( θ | x ) ∝ π( θ ) × L ( θ | x )
późniejsze ∝ wcześniejsze × prawdopodobieństwo
znaleziono od
Jeffreysa (1939) .
Uwaga: Wprowadzone na stronie Wikipedii rozróżnienie funkcji prawdopodobieństwa między prawdopodobieństwem częstości a bayesowskim uważam za mylące i niepotrzebne lub po prostu błędne, ponieważ znaczna większość obecnych statystów bayesowskich nie stosuje prawdopodobieństwa jako substytutu prawdopodobieństwa z późniejszego okresu. Podobnie „różnica” wskazana na stronie Wikipedii o twierdzeniu Bayesa brzmi bardziej myląco niż cokolwiek innego, ponieważ twierdzenie to jest twierdzeniem prawdopodobieństwa o zmianie warunkowania, niezależnym od paradygmatu lub od znaczenia zdania prawdopodobieństwa. ( Moim zdaniem jest to bardziej definicja niż twierdzenie!)