Określenie optymalnej dyskretyzacji danych z ciągłej dystrybucji

Załóżmy, że masz zestaw danych z ciągłego rozkładu o gęstości obsługiwanej na który nie jest znany, ale jest dość duży, więc gęstość jądra (na przykład) szacunek jest dość dokładny. Dla konkretnego zastosowania muszę przekształcić obserwowane dane w skończoną liczbę kategorii, aby uzyskać nowy zestaw danych z implikowaną funkcją masy . $Y_{1}, ..., Y_{n}$ $p(y)$ $[0,1]$ $n$ $\hat{p}(y)$ $Z_{1}, ..., Z_{n}$ $g(z)$

Prostym przykładem byłoby gdy i gdy . W tym przypadku indukowana funkcja masy byłaby $Z_{i} = 0$ $Y_{i} \leq 1/2$ $Z_{i} = 1$ $Y_{i} > 1/2$

\hat{g} (0) = \int_{0}^{1 / 2} \hat{p} (y) d y, \hat{g} (1) = \int_{1 / 2}^{1} \hat{p} (y) d y

$\hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy$

Dwa „parametry strojenia” tutaj to liczba grup, oraz wektor długości progów . Oznacz indukowaną funkcję masy przez . $m$ $(m-1)$ $\lambda$ $\hat{g}_{m,\lambda}(y)$

Chciałbym wykonać procedurę, która odpowiada na przykład: „Jaki jest najlepszy wybór , aby zwiększenie liczby grup do (i wybranie tam optymalnej ) przyniosłoby nieznaczną poprawę?” . Wydaje mi się, że być może uda się stworzyć statystykę testową (może z różnicą dywergencji KL lub coś podobnego), której rozkład można wyprowadzić. Wszelkie pomysły lub odpowiednia literatura? $m, \lambda$ $m+1$ $\lambda$

Edycja: Mam równomiernie rozmieszczone pomiary czasowe zmiennej ciągłej i używam niejednorodnego łańcucha Markowa do modelowania zależności czasowej. Szczerze mówiąc, dyskretne łańcuchy markowe są znacznie łatwiejsze w obsłudze i to jest moja motywacja. Obserwowane dane są procentami. Obecnie używam dyskretyzacji ad hoc, która wygląda dla mnie bardzo dobrze, ale myślę, że jest to interesujący problem, w którym możliwe jest formalne (i ogólne) rozwiązanie.

Edycja 2: Faktyczne zminimalizowanie rozbieżności KL byłoby równoznaczne z całkowitym dyskrecjonowaniem danych, więc pomysł został całkowicie wykluczony. Odpowiednio zredagowałem ciało.

continuous-data discrete-data

— Makro
źródło

W większości przypadków potrzeby aplikacji będą decydować o jakości każdego rozwiązania. Być może, aby dać nam trochę wskazówek, możesz powiedzieć o tym więcej.

— whuber

Najpierw zdefiniuj, co rozumiesz przez „ nieistotny” . Wydaje się, że jest to związane z problemem zniekształceń stawki . Tekst Cover & Thomas stanowi przyjemne, czytelne wprowadzenie do takich tematów.

— kardynał

Myślę o dyskretyzacji przy poziomach

jak model o parametrach

(dla progów). W tym ustawieniu, gdy mówię nieistotny, mam na myśli „nie warto dodawać dodatkowego parametru” w sensie statystycznym.

k

$k$

k - 1

$k-1$

— Makro

Nie jestem pewien, czy dyskretyzacja jest dobrym posunięciem. Nie będziesz w stanie uogólniać poza granice, które tworzą wartości dyskretne na oryginalnej przestrzeni twoich obserwacji.

— bayerj

Podzielę się rozwiązaniem, które wpadłem na ten problem jakiś czas temu - nie jest to formalny test statystyczny, ale może stanowić przydatną heurystykę.

Rozważmy przypadek, gdy ogólny masz ciągły obserwacje ; bez utraty ogólności załóżmy, że przestrzenią próbki dla każdej obserwacji jest przedział . Schemat kategoryzacji będzie zależeć od wielu kategorii, , i progów lokalizacji, które dzielą kategorie, . $Y_{1}, Y_{2}, ..., Y_{n}$ $[0,1]$ $m$ $0 < \lambda_{1} < \lambda_{2} < \cdots < \lambda_{m-1} < 1$

Oznacz skategoryzowaną wersję przez , gdzie . Myśląc o dyskretyzacji danych jako podziale oryginalnych danych na klasy, wariancję można traktować jako kombinację wariancji wewnątrz i między grupami dla stałej wartości : $Y_{i}$ $Z_{i}(m, {\boldsymbol \lambda})$ ${\boldsymbol \lambda} = \{ \lambda_{1}, \lambda_{2}, \cdots, \lambda_{m-1} \}$ $Y_{i}$ $m, {\boldsymbol \lambda}$

v a r (Y_{i}) = v a r (E (Y_{i} | Z_{i} (m, λ))) + E (v a r (Y_{i} | Z_{i} (m, λ))) .

$\begin{equation} {\rm var}(Y_{i}) = {\rm var} \Big( E(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big) + E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big). \end{equation}$

Dana kategoryzacja z powodzeniem tworzy homogeniczne grupy, jeśli istnieje stosunkowo niewielka wariancja wewnątrz grupy, określona ilościowo za pomocą . , szukamy oszczędnego grupowania, które przekazuje większość zmian w do . szczególności chcemy wybrać tak, że przez dodanie dodatkowych poziomów, nie znaczący dodatek do jednorodności w obrębie grupy. z tym jest umysł, możemy określić optymalny dla ustalonej wartości będzie $E( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}) )$ $Y_{i}$ ${\rm var}( E(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}) )$ $m$ ${\boldsymbol \lambda}$ $m$

λ_{m}^{⋆} = {a r g m i n}_{λ} E (v a r (Y_{i} | Z_{i} (m, λ)))

$\begin{equation} {\boldsymbol \lambda}^{\star}_{m} = {\rm argmin}_{\boldsymbol \lambda} E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big) \end{equation}$

Zgrubną diagnozą dla ustalenia, który wybór jest odpowiedni, jest przyjrzenie się dropoff w jako funkcja - ta trajektoria monotonicznie się nie zwiększa, a po gwałtownym spadku, możesz zauważyć, że zyskujesz względnie mniejszą precyzję poprzez dodanie większej liczby kategorii. Ta heurystyka jest podobna w duchu, jak czasami używa się „ wykresu piargowego ”, aby zobaczyć, ile głównych składników wyjaśnia „wystarczającą” zmienność. $m$ $E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}^{\star}_{m} )) \Big)$ $m$

— Makro
źródło