Jak dopasować przybliżony plik PDF (tj. Oszacowanie gęstości) przy użyciu pierwszych k (empirycznych) momentów?


11

Mam sytuację, w której jestem w stanie oszacować (pierwsze) momentów zbioru danych i chciałbym użyć go do oszacowania funkcji gęstości.k

Natknąłem się już na rozkład Pearsona , ale zdałem sobie sprawę, że opiera się on tylko na pierwszych 4 momentach (z pewnymi ograniczeniami dotyczącymi możliwych kombinacji momentów).

Rozumiem również, że jakikolwiek skończony zestaw momentów nie wystarczy, aby „określić” konkretny rozkład, gdy nie używa się więcej założeń. Jednak nadal chciałbym bardziej ogólnej klasy dystrybucji (innych niż rodzina dystrybucji Pearson). Patrząc na inne pytania, nie mogłem znaleźć takiego rozkładu (patrz: tutaj , tutaj , tutaj , tutaj , tutaj i tutaj ).

Czy istnieje jakaś („prosta”) uogólniona rodzina rozkładu, którą można zdefiniować dla dowolnego zestawu momentów? (być może zestaw transformacji, które mogą przyjąć standardowy rozkład normalny i przekształcić go, dopóki nie zostanie potwierdzony przez cały zestaw momentów)kk

(Nie obchodzi mnie to zbytnio, jeśli przyjmiemy, że inne momenty mają wartość 0 lub nie)k+1

Dzięki.

ps: Byłbym szczęśliwy z tego powodu. Najlepiej z przykładem kodu R.


2
Pierwsze momentów definiuje pierwsze pochodnych funkcji charakterystycznej przy zeru: . Znasz więc pierwsze wyrażeń Taylora dla funkcji charakterystycznej wokół zera. Być może będziesz w stanie użyć twierdzeń o inwersji, aby uzyskać gęstość. k E [ X k ] = ( - i ) k ϕ ( k ) X ( 0 ) kkkE[Xk]=(i)kϕX(k)(0)k
Stephan Kolassa

Dzięki @StephanKolassa - masz szansę na rozszerzoną odpowiedź / przykład kodu R?
Tal Galili


Drogi @ Whuber, czy mógłbyś zasugerować przykład kodu R? (też, czy to idzie w parze z odpowiedzią wilków?)
Tal Galili,

To jest zupełnie inne podejście od tej odpowiedzi.
whuber

Odpowiedzi:


11

Metoda 1: Systemy Pearson wyższego rzędu

Układ Pearsona jest z reguły uznawany za rodzinę rozwiązań równania różniczkowego:p(x)

dp(x)dx=(a+x)c0+c1x+c2x2p(x)

gdzie cztery parametry Pearsona można wyrazić jako pierwsze cztery momenty populacji.(a,c0,c1,c2)

Zamiast system Pearsona na kwadracie , zamiast tego można rozważyć użycie wielomianów wyższego rzędu jako kamienia węgielnego. Na przykład można rozważyć system w stylu Pearsona oparty na wielomianu sześciennym. Będzie to rodzina rozwiązań do równania różniczkowego: p ( x )c0+c1x+c2x2p(x)

rep(x)rex=-(za+x)do0+do1x+do2)x2)+do3)x3)p(x)

co daje rozwiązanie:

wprowadź opis zdjęcia tutaj

Rozwiązałem to dla zabawy jakiś czas temu (mając taki sam tok myślenia jak OP): pochodzenie i rozwiązanie podano w rozdziale 5 naszej książki; w razie zainteresowania można pobrać bezpłatnie tutaj:

http://www.mathstatica.com/book/bookcontents.html

Zwróć uwagę, że podczas gdy rodzina Pearsona drugiego rzędu (kwadratowa) może być wyrażona jako pierwsze 4 momenty, rodzina Pearsona trzeciego rzędu (sześcienna) wymaga pierwszych 6 momentów.

Metoda 2: Rozszerzenia Gram-Charliera

Rozszerzenia Gram-Charliera są również omówione w tym samym rozdziale 5 (patrz sekcja 5.4) ... i pozwalają również na zbudowanie dopasowanej gęstości, w oparciu o dowolnie duże momenty. Jak sugeruje OP, rozszerzenie Gram-Charliera wyraża dopasowany pdf jako funkcję szeregu pochodnych standardowego normalnego pdf, znanego jako wielomiany Hermite. Współczynniki Gram-Charliera są rozwiązywane jako funkcja momentów populacji ... im większe rozszerzenie, tym więcej wymaganych momentów. Możesz także zajrzeć do powiązanych rozszerzeń Edgeworth.kth

Chwile populacji lub chwile próbne?

Dla systemu w stylu Pearsona: jeśli znane są momenty populacji, użycie wyższych momentów powinno jednoznacznie dać lepsze dopasowanie. Jeżeli jednak zaobserwowane dane są losową próbą pobraną z populacji, występuje kompromis: wielomian wyższego rzędu implikuje, że wymagane są momenty wyższego rzędu, a szacunki tego drugiego mogą być niewiarygodne (mają dużą wariancję), chyba że wielkość próbki jest „duża”. Innymi słowy, biorąc pod uwagę przykładowe dane, dopasowanie z wykorzystaniem wyższych momentów może stać się „niestabilne” i dać gorsze wyniki. To samo dotyczy rozszerzeń Gram-Charliera: dodanie dodatkowego terminu może w rzeczywistości spowodować gorsze dopasowanie, więc wymagana jest ostrożność.


Drodzy @ wilki - dziękuję za odpowiedź! Jeśli dobrze cię rozumiem, rozszerzenia Gram-Charliera są bardziej zgodne z tym, czego szukam (chociaż bardziej uogólniona dystrybucja Pearsona jest interesująca). Spojrzałem na twoją książkę (rozdział 5, zaczynając od strony 175) i widzę, że rzeczywiście podajesz tam szczegółowy opis (wraz ze wzmiankami o tym, jak radzić sobie z przewidywanymi momentami, co jest moim przypadkiem). Jedyną rzeczą jest to, że nie mogę użyć twojego kodu (ponieważ jestem użytkownikiem R.). Dzięki za odpowiedź (a także za książkę, która wydaje się ogólnie imponująca i interesująca)
Tal Galili

2
Właśnie znalazłem pakiet R do obsługi różnych metod: cran.us.r-project.org/web/packages/PDQutils/vignettes/…
Tal Galili
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.