Gdzie przydatne jest szacowanie gęstości?

Po przejrzeniu nieco zwięzłej matematyki, myślę, że mam niewielką intuicję w szacowaniu gęstości jądra. Ale jestem również świadomy, że szacowanie gęstości wielu zmiennych dla więcej niż trzech zmiennych może nie być dobrym pomysłem, jeśli chodzi o właściwości statystyczne jego estymatorów.

Więc w jakich sytuacjach powinienem oszacować, powiedzmy, gęstość dwuwymiarową przy użyciu metod nieparametrycznych? Czy warto zacząć martwić się oszacowaniem tego dla więcej niż dwóch zmiennych?

Jeśli możesz wskazać kilka użytecznych linków dotyczących zastosowania szacowania gęstości wielowymiarowej, byłoby świetnie.

— lovekesh
źródło

Jednym z typowych przypadków zastosowania szacowania gęstości jest wykrywanie nowości, czyli wykrywanie wartości odstających, w którym chodzi o to, że masz (lub głównie) dane jednego typu, ale interesują Cię bardzo rzadkie, jakościowe odrębne dane, które znacznie odbiegają od te typowe przypadki.

Przykładami są wykrywanie oszustw, wykrywanie awarii w systemach i tak dalej. Są to sytuacje, w których gromadzenie danych, które Cię interesują, jest bardzo trudne i / lub kosztowne. Te rzadkie przypadki, tj. Przypadki o niskim prawdopodobieństwie wystąpienia.

W większości przypadków nie jesteś zainteresowany dokładnym oszacowaniem dokładnego rozkładu, ale względnymi szansami (jak prawdopodobne jest, że dana próbka jest rzeczywistą wartością odstającą, a nie inną).

Istnieją dziesiątki samouczków i recenzji na ten temat. Ten jeden może być dobry na początek.

EDYCJA: dla niektórych osób wydaje się dziwne używanie szacowania gęstości do wykrywania wartości odstających. Uzgodnijmy najpierw jedno: kiedy ktoś dopasowuje model mieszany do swoich danych, faktycznie dokonuje oszacowania gęstości. Model mieszany reprezentuje rozkład prawdopodobieństwa.

kNN i GMM są rzeczywiście powiązane: są to dwie metody szacowania takiej gęstości prawdopodobieństwa. Jest to idea leżąca u podstaw wielu podejść do wykrywania nowości. Na przykład ten oparty na kNN, ten drugi oparty na oknach Parzen (które podkreślają ten sam pomysł na początku artykułu) i wiele innych .

Wydaje mi się (ale to tylko moja osobista percepcja), że większość, jeśli nie wszyscy, pracują nad tym pomysłem. Jak inaczej wyraziłbyś ideę nietypowego / rzadkiego wydarzenia?

— jpmuc
źródło

Zestaw notatek, który nakreśliłeś (sekcja 6, „podejście oparte na gęstości”) przedstawia niektóre bardzo ezoteryczne (dalekie od średniego strumienia i cicho rozwiniętej literatury na ten temat) podejścia do wykrywania wartości odstających. Z pewnością muszą istnieć bardziej popularne aplikacje.

— user603

Przepraszamy, nie rozumiem twojego komentarza. Dwa bardzo podstawowe przykłady to kNN i GMM. Te dwie metody zapewniają oszacowanie gęstości prawdopodobieństwa i mogą być stosowane w takich przypadkach.

— jpmuc

Dzięki. co to jest GMM? Nie sądzę, że kNN jest podejściem średniego strumienia do wykrywania wartości odstających. Czy możesz odnieść się do najnowszego podręcznika na temat solidnych statystyk, w których jest on używany w tym kontekście? (Spojrzałem na dokumenty w zestawie slajdów, na które wskazałeś, że wykrywanie wartości odstających wydaje się być albo procedurami konferencyjnymi, albo starymi książkami)

— użytkownik603

GMM = model mieszanki gaussowskiej. Na slajdach odnoszą się do wyników opartych na kNN. Osobiście używałem SVM do nowatorskiego wykrywania. Niestety nie mogę polecić konkretnego podręcznika. Może te notatki ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) są wystarczające.

— jpmuc

Zdecydowanie zgadzam się z @ user603. Oszacowanie gęstości jest na pierwszy rzut oka bardzo dziwnym i pośrednim sposobem na znalezienie wartości odstających. Twoja odpowiedź zostanie wzmocniona poprzez podsumowanie, w jaki sposób jest stosowana w praktyce - i dlaczego uważasz, że działa dobrze.

— Nick Cox,

$(x_i)$

{fa}_{h} (x) \propto \sum_{x_{ja}} \exp (- (x_{ja} - x)^{T.} Σ^{- 1} (x_{ja} - x)),

$f_h(x) \propto \sum_{x_i} \exp( -(x_{i}-x)^{T}\Sigma^{-1} (x_{i}-x)),$

Σ^{- 1}

$\Sigma^{-1}$

x_{i}

$x_i$

— peuhp
źródło

Zazwyczaj KDE jest reklamowane jako alternatywa dla histogramów. Główną zaletą KDE w porównaniu z histogramami, w tym kontekście, jest złagodzenie wpływu dowolnie wybranych parametrów na wynik wizualny procedury. W szczególności (jak pokazano w powyższym linku) KDE nie wymaga od użytkownika określania punktów początkowych i końcowych.

— użytkownik603
źródło