Nie podoba mi się informacja Fishera, co mierzy i jak jest pomocna. Również związek z Cramer-Rao nie jest dla mnie oczywisty.
Czy ktoś może podać intuicyjne wyjaśnienie tych pojęć?
Nie podoba mi się informacja Fishera, co mierzy i jak jest pomocna. Również związek z Cramer-Rao nie jest dla mnie oczywisty.
Czy ktoś może podać intuicyjne wyjaśnienie tych pojęć?
Odpowiedzi:
Wyjaśniam tutaj, dlaczego asymptotyczna wariancja estymatora maksymalnego prawdopodobieństwa stanowi dolną granicę Cramer-Rao. Mamy nadzieję, że zapewni to pewien wgląd w znaczenie informacji Fishera.
Wnioskowanie statystyczne przebiega przy użyciu funkcji prawdopodobieństwa którą konstruujesz na podstawie danych. Oszacowanie punktu to wartość, która maksymalizuje . Estymator jest zmienną losową, ale pomaga zrozumieć, że funkcja prawdopodobieństwa jest „krzywą losową”.
Zakładamy tutaj dane id pobrane z rozkładu i definiujemy prawdopodobieństwo
Parametr ma właściwość, która maksymalizuje wartość „prawdziwego” prawdopodobieństwa, . Jednak „zaobserwowana” funkcja prawdopodobieństwa która jest zbudowana z danych, jest nieco „wyłączona” z prawdziwego prawdopodobieństwa. Jednak, jak można sobie wyobrazić, wraz ze wzrostem wielkości próby „obserwowane” prawdopodobieństwo zbliża się do kształtu krzywej prawdziwego prawdopodobieństwa. To samo dotyczy pochodnej prawdopodobieństwa w odniesieniu do parametru, funkcji score . (Krótko mówiąc, informacja Fishera określa, jak szybko obserwowana funkcja punktacji zbiega się z kształtem funkcji prawdziwej punktacji.
Przy dużej wielkości próby zakładamy, że nasze oszacowanie maksymalnego prawdopodobieństwa jest bardzo zbliżone do . Powiększamy niewielką okolicę wokół i aby funkcja prawdopodobieństwa była „lokalnie kwadratowa”.
Tam, jest punktem, w którym funkcja score przecina początek. W tym małym regionie funkcję punktacji traktujemy jako linię , jedną o nachyleniu i losowym punkcie przecięcia w . Wiemy z równania, że linia to
lub
Ze spójności estymatora MLE wiemy to
w limicie.
Dlatego asymptotycznie
Okazuje się, że nachylenie zmienia się znacznie mniej niż punkt przecięcia i asymptotycznie możemy traktować funkcję score jako posiadającą stałe nachylenie w małym sąsiedztwie wokół . W ten sposób możemy pisać
Jakie są zatem wartości i ? Okazuje się, że ze względu na cudowny matematyczny zbieg okoliczności, są one tej samej wielkości (modulo znak minus), informacja Fishera.
A zatem,
Jednym ze sposobów, w jaki rozumiem informacje dotyczące rybaków, jest następująca definicja:
Informacje Fishera można zapisać w ten sposób, ilekroć gęstość jest dwa razy różna. Jeśli przestrzeń nie zależy od parametru , możemy użyć wzoru na całkę Leibniza, aby pokazać, że pierwszy składnik jest zerowy (rozróżnij obie strony dwa razy i dostajesz zero), a drugi termin to definicja „standardowa”. Zajmę się przypadkiem, gdy pierwszy termin wynosi zero. Przypadki, gdy nie jest to zero, nie są zbyt przydatne do zrozumienia Informacji Fisher.
Teraz, gdy robisz oszacowanie maksymalnego prawdopodobieństwa (wstaw „warunki regularności” tutaj), ustaw
I rozwiązać dla . Tak więc druga pochodna mówi, jak szybko zmienia się gradient iw pewnym sensie „jak daleko” może odejść od MLE bez dokonywania znaczącej zmiany po prawej stronie powyższego równania. Innym sposobem, w jaki możesz o tym myśleć, jest wyobrażenie sobie „góry” narysowanej na papierze - jest to funkcja logarytmu prawdopodobieństwa. Rozwiązanie równania MLE powyżej informuje, gdzie znajduje się szczyt tej góry, w zależności od losowej zmiennej . Druga pochodna mówi ci, jak stroma jest góra - co w pewnym sensie mówi, jak łatwo jest znaleźć szczyt góry. Informacje Fishera pochodzą z wzięcia oczekiwanej stromości szczytu, dlatego mają nieco interpretację „danych wstępnych”.
Jedną z rzeczy, które wciąż mnie interesują, jest to, jak strome jest prawdopodobieństwo logarytmiczne, a nie jak strome jest jakaś inna monotoniczna funkcja prawdopodobieństwa (być może związana z „właściwymi” funkcjami punktacji w teorii decyzji? A może z aksjomatami spójności entropii ?).
Informacje Fishera „pojawiają się” również w wielu analizach asymptotycznych z powodu tak zwanego przybliżenia Laplace'a. Wynika to głównie z faktu, że każda funkcja z „dobrze zaokrąglonym” pojedynczym maksymalnym podbiciem do wyższej i wyższej mocy przechodzi w funkcję Gaussa (podobnie do twierdzenia o centralnym, ale nieco więcej generał). Kiedy masz dużą próbkę, jesteś skutecznie w tej pozycji i możesz napisać:
A kiedy Taylor zwiększy prawdopodobieństwo dziennika dotyczące MLE:
Co stanowi zwykle dobre przybliżenie zastąpienia sumy całką, ale wymaga to niezależności danych. Tak więc dla dużych niezależnych próbek (podanych ) można zobaczyć, że informacja Fishera jest zmienną MLE dla różnych wartości MLE.
To najbardziej intuicyjny artykuł, jaki do tej pory widziałem:
Granicę tłumaczy analogia Adama i Ewy w rajskim ogrodzie rzucających monetą, aby zobaczyć, kto może zjeść owoc, a następnie zadają sobie pytanie, jak duża jest próbka, aby osiągnąć określony poziom dokładności w ich oszacowaniu, a następnie odkrywają tę granicę ...
Ładna historia z głębokim przesłaniem o rzeczywistości.
Chociaż powyższe wyjaśnienia są bardzo interesujące i podobało mi się ich przeglądanie, uważam, że charakter Dolnej Granicy Cramer-Rao najlepiej wytłumaczył mi geometrycznie. Ta intuicja jest streszczeniem koncepcji elips koncentracyjnych z rozdziału 6 książki Scharf'a na temat statystycznego przetwarzania sygnałów .
Zastanów się nad dowolnym obiektywnym estymatorem . Dodatkowo załóżmy, że estymator ma rozkład Gaussa z kowariancją . W tych warunkach rozkład jest proporcjonalny do:
.
Pomyśl teraz o wykresach konturowych tego rozkładu dla . Wszelkie górne ograniczenie prawdopodobieństwa (tj. ) spowoduje elipsoidę wyśrodkowaną na o stałym promieniu . Łatwo wykazać, że istnieje promień jeden do jednego między promieniem elipsoidy a pożądanym prawdopodobieństwem . Innymi słowy, jest zbliżony do w elipsoidzie określonej przez promień z prawdopodobieństwem. Ta elipsoida nazywana jest elipsoidą koncentracji.
Biorąc pod uwagę powyższy opis, możemy powiedzieć o CRLB. Spośród wszystkich obiektywnych estymatorów, CRLB reprezentuje estymator z kowariancją który dla ustalonego prawdopodobieństwa „bliskości” (jak zdefiniowano powyżej) ma najmniejszy elipsoida stężenia. Poniższy rysunek przedstawia ilustrację 2D (inspirowaną ilustracją w książce Scharf ).