Poza jądrem Fishera

Przez pewien czas wydawało się, że jądra Fishera mogą stać się popularne, ponieważ wydają się być sposobem na konstruowanie jąder z modeli probabilistycznych. Rzadko jednak widywałem je w praktyce i mam dobry autorytet, że nie działają zbyt dobrze. Opierają się na obliczeniach Fisher Information - cytując Wikipedię:

informacja Fishera jest ujemna z oczekiwania na drugą pochodną w odniesieniu do θ logarytmu naturalnego f. Informacje mogą być postrzegane jako miara „krzywizny” krzywej podparcia w pobliżu oszacowania maksymalnego prawdopodobieństwa (MLE) θ.

O ile wiem, oznacza to, że funkcja jądra między dwoma punktami to odległość wzdłuż tej zakrzywionej powierzchni - mam rację?

Jednak może to być problematyczne przy stosowaniu w metodach jądra, jak

MLE może być bardzo złym oszacowaniem dla danego modelu
Krzywizna krzywej podparcia wokół MLE może nie być użyteczna do rozróżnienia między instancjami, na przykład jeśli powierzchnia prawdopodobieństwa była bardzo szczytowa
Wydaje się, że to wyrzuca wiele informacji o modelu

Jeśli tak jest, czy są jakieś nowoczesne sposoby konstruowania jąder z metod probabilistycznych? Na przykład, czy moglibyśmy użyć zestawu podtrzymującego do korzystania z oszacowań MAP w ten sam sposób? Jakie inne pojęcia odległości lub podobieństwa w stosunku do metod probabilistycznych mogłyby zadziałać w celu skonstruowania (prawidłowej) funkcji jądra?

— tdc
źródło

Masz rację co do trzech poruszonych kwestii, a twoja interpretacja jest dokładnie właściwa.

Ludzie patrzyli na inne kierunki budowy jąder z modeli probabilistycznych:

Moreno i in. zaproponuj Kullbacka-Leiblera, chociaż kiedy to spełnia warunki Mercera, nie był dobrze zrozumiany, kiedy spojrzałem na ten problem z powrotem, gdy go przeczytałem.
Jebara i in. zaproponuj produkt wewnętrzny w przestrzeni dystrybucji. Ten artykuł brzmi bardzo podobnie do tego, czego szukasz: możesz go pobrać tutaj .

Przeczytałem je jakiś czas temu (2008), nie jestem pewien, jak ten obszar ewoluował w ciągu ostatnich kilku lat.

Istnieją również nieprobabilistyczne sposoby; ludzie w Bioinformatyce przyglądali się dynamicznym rodzajom programowania rzeczy w przestrzeni łańcuchów i tak dalej. Te rzeczy nie zawsze są PSD i mają własne problemy.

— carlosdc
źródło

jmlr.org/papers/volume10/martins09a/martins09a.pdf rozwija pewną teorię jąder związanych z rozbieżnością KL, które są i nie są pozytywnie określone.

— Dougal