Korzystam z Bayesa, aby rozwiązać problem klastrowania. Po kilku obliczeniach kończę z koniecznością uzyskania stosunku dwóch prawdopodobieństw:
być w stanie uzyskać . Te prawdopodobieństwa są uzyskiwane przez integrację dwóch różnych wielowymiarowych KDE 2D, jak wyjaśniono w tej odpowiedzi :
gdzie i to KDE, a integracja jest wykonywana dla wszystkich punktów poniżej progów i . Oba KDE używają jądra Gaussa . Reprezentatywny obraz KDE podobny do tych, nad którymi pracuję, można zobaczyć tutaj: Integrowanie estymatora gęstości jądra w 2D .
Obliczam KDE za pomocą python
funkcji stats.gaussian_kde , więc przyjmuję dla niego następującą ogólną formę:
gdzie n
jest długość mojego szeregu punktów i h
używana przepustowość.
Całki powyżej są obliczane przy użyciu procesu Monte Carlo, który jest dość drogi obliczeniowo. Czytałem gdzieś (zapomniałem gdzie, przepraszam), że w takich przypadkach można zastąpić stosunek prawdopodobieństwa przez stosunek plików PDF (KDE) ocenianych w punktach progowych, aby uzyskać równie ważne wyniki. Interesuje mnie to, ponieważ obliczanie współczynnika KDE jest o rząd wielkości szybsze niż obliczanie stosunku całek za pomocą MC.
Pytanie sprowadza się zatem do ważności tego wyrażenia:
W jakich okolicznościach, jeśli w ogóle, czy mogę powiedzieć, że ta relacja jest prawdziwa?
[naprawiona literówka (EDYCJA)]
Dodaj :
Oto w zasadzie to samo pytanie, ale w bardziej matematycznej formie.
P(X)
próbuję obliczyć. Czy możesz rozwinąć nieco znaczenie tego parametru?