Stosujesz stosunkowo wąską definicję częstości i MLE - jeśli jesteśmy nieco bardziej hojni i określamy
Częstotliwość: cel spójności, (asymptotyczna) optymalność, bezstronność i kontrolowane poziomy błędów przy powtarzanym próbkowaniu, niezależnie od prawdziwych parametrów
MLE = oszacowanie punktowe + przedziały ufności (CI)
wtedy wydaje się całkiem jasne, że MLE spełnia wszystkie ideały częstych. W szczególności, CI w MLE, jako wartości p, kontrolują poziom błędu podczas powtarzania próbkowania i nie dają obszaru prawdopodobieństwa 95% dla prawdziwej wartości parametru, jak wielu ludzi sądzi - stąd są przez częste.
Nie wszystkie z tych pomysłów były już obecne w fundamentalnym artykule Fishera z 1922 r. „O matematycznych podstawach statystyki teoretycznej” , ale idea optymalności i bezstronności jest, a Neyman dodał pomysł konstruowania elementów CI z ustalonymi poziomami błędów. Efron, 2013, „250-letni spór: wiara, zachowanie i bootstrap” , podsumowuje w swojej bardzo czytelnej historii debaty bayesowskiej / częstokońskiej:
Częstotliwościowy modowy naprawdę zaczął działać na początku XX wieku. Ronald Fisher opracował teorię największego prawdopodobieństwa optymalnego oszacowania, pokazując najlepsze możliwe zachowanie dla oszacowania, a Jerzy Neyman zrobił to samo dla przedziałów ufności i testów. Procedury Fishera i Neymana były prawie idealnie dopasowane do potrzeb naukowych i obliczeniowych ograniczeń nauki XX wieku, wprowadzając bayesianizm w cień.
Jeśli chodzi o twoją wąską definicję - delikatnie nie zgadzam się z twoją przesłanką, że minimalizacja ryzyka częstych (FR) jest głównym kryterium decydującym o tym, czy metoda jest zgodna z filozofią częstych. Powiedziałbym, że fakt, iż minimalizowanie FR jest pożądaną właściwością, wynika raczej z filozofii częstych, niż z jej poprzedniczki. Stąd zasada / estymator decyzji nie musi minimalizować FR, aby być częstym, a minimalizowanie FR niekoniecznie oznacza, że metoda jest częsta, ale częsty wątpliwy wolałby minimalizację FR.
Jeśli spojrzymy konkretnie na MLE: Fisher wykazał, że MLE jest asymptotycznie optymalny (zasadniczo równoważny z minimalizacją FR) iz pewnością był to jeden z powodów promowania MLE. Był jednak świadomy, że optymalność nie dotyczy skończonej wielkości próby. Mimo to był zadowolony z tego estymatora ze względu na inne pożądane właściwości, takie jak spójność, asymptotyczna normalność, niezmienność przy przekształceniach parametrów i nie zapominajmy: łatwość obliczeń. Szczególnie niezmienność jest mocno zaakcentowana w artykule z 1922 r. - z mojej lektury powiedziałbym, że utrzymanie niezmienniczości w trakcie transformacji parametrów i umiejętność pozbycia się a priori w ogóle były jedną z jego głównych motywacji przy wyborze MLE. Jeśli chcesz lepiej zrozumieć jego rozumowanie, naprawdę polecam artykuł z 1922 r., „