Czy potrafisz wyjaśnić oszacowanie gęstości okna Parzen (jądra) w kategoriach laika?

24

Oszacowanie gęstości okna Parzen jest opisane jako

p (x) = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{h^{2}} ϕ (\frac{x_{i} - x}{h})

$p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right)$

gdzie jest liczbą elementów w wektorze, jest wektorem, jest gęstością prawdopodobieństwa , jest wymiarem okna Parzen, a jest funkcją okna. $n$ $x$ $p(x)$ $x$ $h$ $\phi$

Moje pytania to:

Jaka jest podstawowa różnica między funkcją okna Parzen a innymi funkcjami gęstości, takimi jak funkcja Gaussa i tak dalej?
Jaka jest rola funkcji okna ( ) w znajdowaniu gęstości ? $\phi$ $x$
Dlaczego możemy podłączyć inne funkcje gęstości zamiast funkcji okna?
Jaka jest rola w znalezieniu gęstości ? $h$ $x$

— użytkownik366312
źródło

44

Szacowanie gęstości okna Parzen to inna nazwa szacowania gęstości jądra . Jest to nieparametryczna metoda szacowania funkcji ciągłej gęstości na podstawie danych.

Wyobraź sobie, że masz kilka punktów danych $x_1,\dots,x_n$ które pochodzą ze wspólnego nieznanego, przypuszczalnie ciągłego, rozkładu $f$ . Jesteś zainteresowany oszacowaniem rozkładu na podstawie swoich danych. Jedną rzeczą, którą możesz zrobić, to po prostu spojrzeć na rozkład empiryczny i potraktować go jako próbkę równoważną rozkładu rzeczywistego. Jeśli jednak twoje dane są ciągłe, najprawdopodobniej zobaczysz każdy $x_i$ punkt pojawia się tylko raz w zbiorze danych, więc na tej podstawie można wywnioskować, że dane pochodzą z jednolitego rozkładu, ponieważ każda z wartości ma jednakowe prawdopodobieństwo. Mamy nadzieję, że możesz to zrobić lepiej: możesz spakować swoje dane w pewnej liczbie równomiernie rozmieszczonych przedziałów i policzyć wartości przypadające na każdy przedział. Ta metoda opierałaby się na szacowaniu histogramu . Niestety, z histogramem kończy się pewna liczba przedziałów, a nie ciągły rozkład, więc jest to tylko przybliżone przybliżenie.

Szacowanie gęstości jądra jest trzecią alternatywą. Główną ideą jest to, że przybliżona $f$ za pomocą mieszaniny ciągłego dystrybucjach $K$ (wykorzystuje notacji $\phi$ ), zwanych jądrami , które są skupione na $x_i$ punktów danych i mieć skalę ( pasma ) równej $h$ :

\hat{f_{h}} (x) = \frac{1}{n h} \sum_{i = 1}^{n} K (\frac{x - x_{i}}{h})

$\hat{f_h}(x) = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big)$

Zilustrowano to na poniższym rysunku, gdzie rozkład normalny jest używany jako jądro $K$ a różne wartości dla przepustowości $h$ są używane do oszacowania rozkładu na podstawie siedmiu punktów danych (oznaczonych kolorowymi liniami na górze wykresów). Kolorowe gęstości na działkach są ziarna skupione w $x_i$ punkty. Zauważ, że $h$ jest parametrem względnym , jego wartość jest zawsze wybierana w zależności od danych, a ta sama wartość $h$ może nie dawać podobnych wyników dla różnych zestawów danych.

Jądro $K$ można traktować jako funkcję gęstości prawdopodobieństwa i należy je zintegrować z jednością. Musi również być symetryczny, aby $K(x) = K(-x)$ a następnie być wyśrodkowany na zero. Artykuł Wikipedii na temat jąder wymienia wiele popularnych jąder, takich jak Gaussian (rozkład normalny), Epanechnikov, prostokątny (rozkład równomierny) itp. Zasadniczo każda dystrybucja spełniająca te wymagania może być używana jako jądro.

Oczywiście ostateczne oszacowanie będzie zależeć od twojego wyboru jądra (ale nie aż tak bardzo) i od parametru przepustowości $h$ . Poniższy wątek Jak interpretować wartość przepustowości w oszacowaniu gęstości jądra? bardziej szczegółowo opisuje użycie parametrów przepustowości.

Mówiąc to w prostym języku angielskim, zakładasz tutaj, że zaobserwowane punkty $x_i$ są tylko próbką i mają określony rozkład $f$ do oszacowania. Ponieważ rozkład jest ciągły, zakładamy, że istnieje jakiś nieznany, ale niezerowe gęstość około najbliższym sąsiedztwie $x_i$ punktów (okolica jest zdefiniowana przez parametr $h$ ) i używamy jądra $K$ do konta dla niego. Im więcej punktów w pewnym otoczeniu, tym gęstość zgromadzonych wokół tego obszaru, a więc, tym wyższa całkowita gęstość $\hat{f_h}$ . Wynikową funkcję $\hat{f_h}$ można teraz ocenić dla dowolnejpunkt $x$ (bez indeksu dolnego), aby uzyskać dla niego oszacowanie gęstości, w ten sposób uzyskaliśmy funkcję $\hat{f_h}(x)$ która jest przybliżeniem nieznanej funkcji gęstości $f(x)$ .

Zaletą gęstości jądra jest to, że nie są to, jak histogramy, funkcje ciągłe i że same są ważnymi gęstościami prawdopodobieństwa, ponieważ są mieszaniną prawidłowych gęstości prawdopodobieństwa. W wielu przypadkach jest to tak blisko, jak to możliwe, do przybliżenia $f$ .

Różnica między gęstością jądra a innymi gęstościami, jako rozkład normalny, polega na tym, że „zwykłe” gęstości są funkcjami matematycznymi, podczas gdy gęstość jądra jest przybliżeniem rzeczywistej gęstości oszacowanej na podstawie twoich danych, więc nie są to rozkłady „samodzielne”.

Poleciłbym wam dwie ładne książki wprowadzające na ten temat autorstwa Silvermana (1986) oraz Wand and Jones (1995).

Silverman, BW (1986). Oszacowanie gęstości dla statystyki i analizy danych. CRC / Chapman & Hall.

Wand, MP i Jones, MC (1995). Wygładzanie jądra. Londyn: Chapman & Hall / CRC.

— Tim
źródło

x

$x$

x_{i}

$x_i$

x

$x$

1

@ anonimowy Dodałem edycję odnoszącą się do twojego pytania w komentarzu na końcu akapitu „Mówiąc to zwykłym angielskim ...”.

— Tim

4

$\phi$

$x$ $\phi_h(x_i - x)$ $x$ $x_1=1$ $x_2 = 2$ $\sigma=1$ $\phi_h$ $x$ $\frac{\mathcal{N}_{1, 1}(x) + \mathcal{N}_{2, 1}(x)}{2}$

3) Możesz podłączyć dowolną funkcję gęstości, która Ci się podoba jako funkcja okna.

$h$

— David J. Harris
źródło