To naprawdę tylko wygoda dla logi wiarygodności, nic więcej.
Mam na myśli wygodę sum w porównaniu z produktami: , sumy łatwiej sobie poradzić pod wieloma względami, takimi jak różnicowanie lub integracja. Próbuję powiedzieć, że to nie jest wygoda tylko dla rodzin wykładniczych.ln( ∏jaxja) = ∑jalnxja
W przypadku próby losowej prawdopodobieństwo ma postać: , więc logarytmiczność podzieliłaby ten produkt na sumę, co jest łatwiejsze do manipulowania i analizy. Pomaga to, że wszystkim, na czym nam zależy, jest punkt maksimum, wartość na maksimum nie jest ważna, ponieważ możemy zastosować dowolną monotonną transformację, taką jak logarytm.L = ∏japja
Na intuicji krzywizny. To w zasadzie to samo, co druga pochodna logi wiarygodności.
y= f( x )
κ = f′ ′( x )( 1 + f′( x )2))3 / 2
Druga pochodna prawdopodobieństwa dziennika:
A = ( lnfa( x ) )′ ′= f′ ′( x )fa( x )- ( f′( x )fa( x ))2)
W punkcie maksimum pierwsza pochodna jest oczywiście zerowa, więc otrzymujemy:
Stąd moja żart, że krzywizna prawdopodobieństwo i druga pochodna prawdopodobieństwa są tym samym.
κm a x= f′ ′( xm a x) = A f( xm a x)
Z drugiej strony, jeśli pierwsza pochodna prawdopodobieństwa jest mała nie tylko w punkcie maksimum, ale w okolicach maksimum, tj. Funkcja prawdopodobieństwa jest płaska, to otrzymujemy:
Teraz płaskie prawdopodobieństwo nie jest dla nas dobre, ponieważ sprawia, że znalezienie maksimum jest trudniejsze numerycznie, a maksymalne prawdopodobieństwo nie jest lepsze niż inne punkty wokół niego, tj. Błędy oszacowania parametru są wysokie.
κ ≈ f′ ′( x ) ≈ A f( x )
I znowu mamy nadal relację krzywizny i drugiej pochodnej. Dlaczego więc Fisher nie spojrzał na krzywiznę funkcji prawdopodobieństwa? Myślę, że to z tego samego powodu wygody. Łatwiej jest manipulować wiarygodnością logiczną ze względu na kwoty zamiast produktu. Mógł więc zbadać krzywiznę prawdopodobieństwa, analizując drugą pochodną prawdopodobieństwa logicznego. Chociaż równanie wygląda bardzo prosto dla krzywizny , w rzeczywistości bierzesz drugą pochodną produktu, która jest bardziej chaotyczna niż suma drugich pochodnych.κm a x= f′ ′( xm a x)
AKTUALIZACJA 2:
Oto demonstracja. Rysuję (całkowicie skompletowaną) funkcję wiarygodności, jej a) krzywiznę ib) drugą pochodną logarytmu. Po lewej stronie widać wąskie prawdopodobieństwo, a po prawej jest szerokie. Widzisz, jak w punkcie maksymalnego prawdopodobieństwa a) ib) zbiegają się, tak jak powinny. Co ważniejsze, możesz zbadać szerokość (lub płaskość) funkcji wiarygodności, badając drugą pochodną jej logarytmu prawdopodobieństwa. Jak pisałem wcześniej, ten drugi jest technicznie prostszy niż ten pierwszy do analizy.
Nic dziwnego, że głębsza druga pochodna logarytmiczności sygnalizuje bardziej płaską funkcję prawdopodobieństwa wokół jej maksimum, co nie jest pożądane, ponieważ powoduje większy błąd oszacowania parametru.
Kod MATLAB na wypadek, gdybyś chciał odtworzyć wykresy:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
AKTUALIZACJA 3:
W powyższym kodzie podłączyłem dowolną funkcję w kształcie dzwonu do równania krzywizny, a następnie obliczyłem drugą pochodną logarytmu. Nie zmieniłem niczego, wartości są prosto z równań, aby pokazać równoważność, o której wspomniałem wcześniej.
Oto pierwszy artykuł na temat prawdopodobieństwa, który Fisher opublikował jeszcze na uniwersytecie, „O absolutnym kryterium dopasowania krzywych częstotliwości”, Messenger of Mathmatics, 41: 155-160 (1912)
Kiedy cały czas nalegałem, nie wspomina o „głębszych” powiązaniach prawdopodobieństwa dziennika z entropią i innymi fantazyjnymi tematami, nie podaje też swojego kryterium informacyjnego. Po prostu umieszcza równanie na 54, a następnie mówi o maksymalizacji prawdopodobieństw. Moim zdaniem pokazuje to, że używał logarytmu jako wygodnej metody analizy samych prawdopodobieństw wspólnych. Jest to szczególnie przydatne w ciągłym dopasowywaniu krzywych, dla którego podaje on oczywistą formułę na str.55:
Powodzenia w analizie tego prawdopodobieństwa (lub prawdopodobieństwa zgodnie z Fisher) bez dziennika!log P = ∫ ∞ - ∞ log f d x PlogP.′= ∑n1logp
logP.= ∫∞- ∞logfarex
P.
Jedną rzeczą, na którą należy zwrócić uwagę, czytając ten artykuł, zaczął od pracy przy szacowaniu maksymalnego prawdopodobieństwa i wykonał więcej pracy w ciągu kolejnych 10 lat, więc nawet o ile mi wiadomo, nawet nie wymyślono terminu MLE.