Szacowanie gęstości okna Parzen to inna nazwa szacowania gęstości jądra . Jest to nieparametryczna metoda szacowania funkcji ciągłej gęstości na podstawie danych.
Wyobraź sobie, że masz kilka punktów danych x1,…,xn które pochodzą ze wspólnego nieznanego, przypuszczalnie ciągłego, rozkładu f . Jesteś zainteresowany oszacowaniem rozkładu na podstawie swoich danych. Jedną rzeczą, którą możesz zrobić, to po prostu spojrzeć na rozkład empiryczny i potraktować go jako próbkę równoważną rozkładu rzeczywistego. Jeśli jednak twoje dane są ciągłe, najprawdopodobniej zobaczysz każdy xipunkt pojawia się tylko raz w zbiorze danych, więc na tej podstawie można wywnioskować, że dane pochodzą z jednolitego rozkładu, ponieważ każda z wartości ma jednakowe prawdopodobieństwo. Mamy nadzieję, że możesz to zrobić lepiej: możesz spakować swoje dane w pewnej liczbie równomiernie rozmieszczonych przedziałów i policzyć wartości przypadające na każdy przedział. Ta metoda opierałaby się na szacowaniu histogramu . Niestety, z histogramem kończy się pewna liczba przedziałów, a nie ciągły rozkład, więc jest to tylko przybliżone przybliżenie.
Szacowanie gęstości jądra jest trzecią alternatywą. Główną ideą jest to, że przybliżona f za pomocą mieszaniny ciągłego dystrybucjach K (wykorzystuje notacji ϕ ), zwanych jądrami , które są skupione na xi punktów danych i mieć skalę ( pasma ) równej h :
fh^(x)=1nh∑i=1nK(x−xih)
Zilustrowano to na poniższym rysunku, gdzie rozkład normalny jest używany jako jądro K a różne wartości dla przepustowości h są używane do oszacowania rozkładu na podstawie siedmiu punktów danych (oznaczonych kolorowymi liniami na górze wykresów). Kolorowe gęstości na działkach są ziarna skupione w xi punkty. Zauważ, że h jest parametrem względnym , jego wartość jest zawsze wybierana w zależności od danych, a ta sama wartość h może nie dawać podobnych wyników dla różnych zestawów danych.
Jądro K można traktować jako funkcję gęstości prawdopodobieństwa i należy je zintegrować z jednością. Musi również być symetryczny, aby K(x)=K(−x) a następnie być wyśrodkowany na zero. Artykuł Wikipedii na temat jąder wymienia wiele popularnych jąder, takich jak Gaussian (rozkład normalny), Epanechnikov, prostokątny (rozkład równomierny) itp. Zasadniczo każda dystrybucja spełniająca te wymagania może być używana jako jądro.
Oczywiście ostateczne oszacowanie będzie zależeć od twojego wyboru jądra (ale nie aż tak bardzo) i od parametru przepustowości h . Poniższy wątek
Jak interpretować wartość przepustowości w oszacowaniu gęstości jądra? bardziej szczegółowo opisuje użycie parametrów przepustowości.
Mówiąc to w prostym języku angielskim, zakładasz tutaj, że zaobserwowane punkty xi są tylko próbką i mają określony rozkład f do oszacowania. Ponieważ rozkład jest ciągły, zakładamy, że istnieje jakiś nieznany, ale niezerowe gęstość około najbliższym sąsiedztwie xi punktów (okolica jest zdefiniowana przez parametr h ) i używamy jądra K do konta dla niego. Im więcej punktów w pewnym otoczeniu, tym gęstość zgromadzonych wokół tego obszaru, a więc, tym wyższa całkowita gęstość fh^ . Wynikową funkcję fh^ można teraz ocenić dla dowolnejpunkt x (bez indeksu dolnego), aby uzyskać dla niego oszacowanie gęstości, w ten sposób uzyskaliśmy funkcję fh^(x) która jest przybliżeniem nieznanej funkcji gęstości f(x) .
Zaletą gęstości jądra jest to, że nie są to, jak histogramy, funkcje ciągłe i że same są ważnymi gęstościami prawdopodobieństwa, ponieważ są mieszaniną prawidłowych gęstości prawdopodobieństwa. W wielu przypadkach jest to tak blisko, jak to możliwe, do przybliżenia f .
Różnica między gęstością jądra a innymi gęstościami, jako rozkład normalny, polega na tym, że „zwykłe” gęstości są funkcjami matematycznymi, podczas gdy gęstość jądra jest przybliżeniem rzeczywistej gęstości oszacowanej na podstawie twoich danych, więc nie są to rozkłady „samodzielne”.
Poleciłbym wam dwie ładne książki wprowadzające na ten temat autorstwa Silvermana (1986) oraz Wand and Jones (1995).
Silverman, BW (1986). Oszacowanie gęstości dla statystyki i analizy danych. CRC / Chapman & Hall.
Wand, MP i Jones, MC (1995). Wygładzanie jądra. Londyn: Chapman & Hall / CRC.