Oszacowanie gęstości jądra uwzględniające niepewności


12

Podczas wizualizacji danych jednowymiarowych często stosuje się technikę szacowania gęstości jądra w celu uwzględnienia nieprawidłowo wybranych szerokości pojemników.

Czy w moim jednowymiarowym zbiorze danych występują niepewności pomiaru, czy istnieje standardowy sposób na włączenie tych informacji?

Na przykład (i wybaczcie mi, jeśli moje rozumienie jest naiwne) KDE przekształca profil gaussowski z funkcjami delta obserwacji. To jądro Gaussa jest współużytkowane przez każdą lokalizację, ale parametr Gaussa może być zmieniany w celu dopasowania do niepewności pomiaru. Czy istnieje standardowy sposób na wykonanie tego? Mam nadzieję odzwierciedlić niepewne wartości za pomocą szerokich jąder.σ

Zaimplementowałem to po prostu w Pythonie, ale nie znam standardowej metody ani funkcji do wykonania tego. Czy są jakieś problemy z tą techniką? Zauważam, że daje to dziwnie wyglądające wykresy! Na przykład

Porównanie KDE

W tym przypadku niskie wartości mają większe niepewności, więc zwykle zapewniają szerokie płaskie jądra, podczas gdy KDE przeważa niskie (i niepewne) wartości.


Czy mówisz, że czerwone krzywe są gaussami o zmiennej szerokości, a zielona krzywa jest ich sumą? (To nie wydaje się prawdopodobne na podstawie tych wykresów.)
whuber

czy wiesz, jaki jest błąd pomiaru dla każdej obserwacji?
Aksakal

@ whuber czerwone krzywe są gaussami o zmiennej szerokości, a niebieska krzywa jest ich sumą. Zielona krzywa to KDE o stałej szerokości, przepraszam za zamieszanie
Simon Walker

@Aksakal tak, każdy pomiar ma inną niepewność
Simon Walker

Problem uboczny, ale nie jest to definicja szacowania gęstości jądra, że ​​używasz jąder Gaussa. Możesz użyć dowolnego jądra, które chcesz zintegrować z 1, chociaż niektóre jądra są bardziej sensowne lub przydatne niż inne ...
Nick Cox

Odpowiedzi:


6

Sensowne jest zróżnicowanie szerokości, ale niekoniecznie dopasowanie szerokości jądra do niepewności.

Weź pod uwagę cel przepustowości, gdy mamy do czynienia ze zmiennymi losowymi, dla których obserwacje zasadniczo nie są niepewne (tj. Gdzie można je obserwować wystarczająco blisko, aby dokładnie) - nawet jeśli, KDE nie użyje zerowej przepustowości, ponieważ szerokość pasma odnosi się do zmienność rozkładu, a nie niepewność w obserwacji (tj. zmienność „między obserwacjami”, a nie niepewność „w obrębie obserwacji”).

To, co masz, jest zasadniczo dodatkowym źródłem zmienności (w przypadku „braku obserwacji-niepewności”), które jest inne dla każdej obserwacji.

Tak więc jako pierwszy krok powiedziałbym „jaka jest najmniejsza przepustowość, której użyłbym, gdyby dane miały 0 niepewności?” a następnie utwórz nową szerokość pasma, która jest pierwiastkiem kwadratowym sumy kwadratów tej szerokości pasma i którego do niepewności obserwacji.σi

Alternatywnym sposobem spojrzenia na problem byłoby potraktowanie każdej obserwacji jak małego jądra (tak jak zrobiłeś, co będzie reprezentować miejsce, w którym mogła być obserwacja), ale zwoje zwykłego (kde-) jądra (zwykle o stałej szerokości, ale nie musi być) z jądrem niepewności obserwacji, a następnie wykonać łączne oszacowanie gęstości. (Uważam, że to właściwie ten sam wynik, co zasugerowałem powyżej).


2

Chciałbym zastosować zmienny estymator gęstości jądra, np. Lokalne selektory przepustowości dla papieru do oceny gęstości jądra dekonwolucji próbują zbudować okno adaptacyjne KDE, gdy znany jest rozkład błędu pomiaru. Stwierdziłeś, że znasz wariancję błędu, więc to podejście powinno mieć zastosowanie w twoim przypadku. Oto kolejny artykuł na temat podobnego podejścia z zanieczyszczoną próbką: WYBÓR SZEROKOPASMOWEGO WYBORU W SZACUNKU GĘSTOŚCI JĄDKA Z ZANIECZYSZCZONEJ PRÓBKI


Twój pierwszy link prowadzi mnie do ms.unimelb.edu.au , To nie jest papier. Myślę, że masz na myśli link.springer.com/article/10.1007/s11222-011-9247-y
Adi Ro

Te rozwiązania wyglądają świetnie! znasz kod implementujący je?
Adi Ro

@AdiRo, naprawiłem uszkodzony link. Nie mam kodu
Aksakal

0

Możesz zajrzeć do rozdziału 6 w „Wielowymiarowa ocena gęstości: teoria, praktyka i wizualizacja” Davida W. Scotta, 1992, Wiley.

W przypadku wariantu jednowymiarowego (str. 130–131) wyprowadza on normalną regułę odniesienia dla wyboru szerokości pasma: gdzie to wariancja wzdłuż twojego wymiaru, to ilość danych, a to przepustowość (użyłeś w swoim pytaniu, więc nie myl tego z moją notacją).σ n h σ

h=(4/3)1/5σn1/5(6.17)
σnhσ

Ogólna notacja KDE, której używa, to: gdzie jest funkcją jądra.K()

f^(x)=1nhi=1nK(xxih)
K()

0

Właściwie myślę, że zaproponowana przez ciebie metoda nazywa się wykresem gęstości prawdopodobieństwa (PDP), tak jak jest powszechnie stosowana w geo-nauce, patrz artykuł tutaj: https://www.sciencedirect.com/science/article/pii/S0009254112001878

Istnieją jednak wady, jak wspomniano w powyższym artykule. Tak, jakby mierzone błędy były małe, na końcu pojawią się skoki w pliku PDF. Ale można również wygładzić PDP tak jak KDE, tak jak wspomniał @ Glen_b ♦

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.