Załóżmy, że masz zestaw danych z ciągłego rozkładu o gęstości obsługiwanej na który nie jest znany, ale jest dość duży, więc gęstość jądra (na przykład) szacunek jest dość dokładny. Dla konkretnego zastosowania muszę przekształcić obserwowane dane w skończoną liczbę kategorii, aby uzyskać nowy zestaw danych z implikowaną funkcją masy .P ( Y ) Z 1 , . . . , Z n g ( z )
Prostym przykładem byłoby gdy i gdy . W tym przypadku indukowana funkcja masy byłaby
Dwa „parametry strojenia” tutaj to liczba grup, oraz wektor długości progów . Oznacz indukowaną funkcję masy przez .( m - 1 ) λ g m , λ ( R )
Chciałbym wykonać procedurę, która odpowiada na przykład: „Jaki jest najlepszy wybór , aby zwiększenie liczby grup do (i wybranie tam optymalnej ) przyniosłoby nieznaczną poprawę?” . Wydaje mi się, że być może uda się stworzyć statystykę testową (może z różnicą dywergencji KL lub coś podobnego), której rozkład można wyprowadzić. Wszelkie pomysły lub odpowiednia literatura?m + 1 λ
Edycja: Mam równomiernie rozmieszczone pomiary czasowe zmiennej ciągłej i używam niejednorodnego łańcucha Markowa do modelowania zależności czasowej. Szczerze mówiąc, dyskretne łańcuchy markowe są znacznie łatwiejsze w obsłudze i to jest moja motywacja. Obserwowane dane są procentami. Obecnie używam dyskretyzacji ad hoc, która wygląda dla mnie bardzo dobrze, ale myślę, że jest to interesujący problem, w którym możliwe jest formalne (i ogólne) rozwiązanie.
Edycja 2: Faktyczne zminimalizowanie rozbieżności KL byłoby równoznaczne z całkowitym dyskrecjonowaniem danych, więc pomysł został całkowicie wykluczony. Odpowiednio zredagowałem ciało.