Dlaczego powinniśmy omawiać zachowania konwergencji różnych estymatorów w różnych topologiach?


14

W pierwszym rozdziale książki Geometria algebraiczna i statystyczna teoria uczenia się, która mówi o zbieżności oszacowań w różnych przestrzeniach funkcjonalnych, wspomina, że ​​oszacowanie Bayesa odpowiada topologii rozkładu Schwartza, podczas gdy oszacowanie maksymalnego prawdopodobieństwa odpowiada topologii ponadnormatywnej (na stronie 7):

Na przykład, sup normą, Lp -norm słaby Topologia Hilberta , topologia dystrybucji Schwartz, i tak dalej. Zależy to ściśle od topologii przestrzeni funkcji, czy zbieżność . Oszacowanie Bayesa odpowiada topologii rozkładu Schwartza, podczas gdy maksymalne prawdopodobieństwo lub metoda a posteriori odpowiada sup-normie. Różnica ta silnie wpływa na wyniki uczenia się w pojedynczych modelach.L2)Kn(w)K.(w)

gdzie i są odpowiednio empiryczną dywergencją KL (sumowanie nad obserwacjami) i prawdziwą dywergencją KL (całka względem rozkładu danych) między modelem prawdziwym a modelem parametrycznym (z parametrem ).K.n(w)K(w)w

Czy ktoś może wyjaśnić lub wskazać, które miejsce w książce ma uzasadnienie? Dziękuję Ci.

Aktualizacja : treści chronione prawem autorskim są usuwane.


czym są i ? K nKKn
Taylor,

@ Taylor Dodałem kilka niezbędnych informacji.
ziyuang,

Odpowiem na twoje pytanie później, stosunkowo dobrze znam książkę watanabe. Jednak zdecydowanie nie podoba mi się sposób, w jaki cytujesz książkę. Jeśli umieścisz tutaj sekcje bezpośrednio, może to spowodować potencjalny problem z prawami autorskimi. Lepszym wyborem będzie używanie numerów stron i pisanie cytatów z odpowiednim numerem startowym.
Henry.L

@ Henry.L Dzięki, a prawa autorskie zostały usunięte.
ziyuang,

@Henry: Chociaż uważam, że warto zachować ostrożność i sumienność przy odtwarzaniu części dzieł chronionych prawem autorskim, ale myślę, że w tym przypadku ziyuang nie ma absolutnie żadnych powodów do zmartwień. Wykorzystanie przez OP niewielkich fragmentów do krytyki naukowej mieści się w doktrynie „dozwolonego użytku” (USA). Rzeczywiście, dokładne odtworzenie może czasem być szczególnie cenne, ponieważ usuwa wszelkie niejednoznaczności, które mogłyby zostać wprowadzone przez przekształcenie treści. (Wszystko, co powiedział, IANAL.)
kardynał

Odpowiedzi:


2

Aby zrozumieć dyskusję Watanabe, ważne jest, aby zdać sobie sprawę z tego, co miał na myśli przez „osobliwość”. (Ścisła) osobliwość pokrywa się z geometrycznym pojęciem metryki osobliwości w jego teorii.

str. 10 [Watanabe]: „ Mówi się, że model statystyczny jest regularny, jeśli można go zidentyfikować i ma dodatnią określoną metrykę. Jeśli model statystyczny nie jest regularny, nazywa się go ściśle pojedynczym.”p(xw)

W praktyce osobliwość powstaje zwykle wtedy, gdy metryka informacji Fishera indukowana przez model jest zdegenerowana na rozmaitości zdefiniowanej przez model, podobnie jak przypadki niskiej rangi lub rzadkie przypadki w „uczeniu maszynowym”.

To, co powiedział Watanabe o zbieżności empirycznej dywergencji KL do jej wartości teoretycznej, można zrozumieć w następujący sposób. Jednym z powodów pojęcia rozbieżności jest solidna statystyka. Estymatory M, które obejmują MLE jako specjalny przypadek z funkcją kontrastu , są zwykle omawiane przy użyciu słabej topologii. Rozsądne jest omówienie zachowania konwergencji przy użyciu słabej topologii w przestrzeni M ( X ) (różnorodność wszystkich możliwych miar określonych w polskiej przestrzeni Xρ(θ,δ(X))=logp(Xθ)M(X)XD(θ0,θ)=Eθ0ρ(θ,δ) sup θ | 1

inf|θθ0|ϵ(|D(θ0,θ)D(θ0,θ0)|)>0
supθ|1niρ(θ,δ(Xi))D(θ0,θ)|0,n
θn^:=argminθρ(θ,δ(Xn))
θ0z prawdopodobieństwem . Wynik ten wymaga znacznie bardziej precyzyjnych warunków, jeśli porównamy go z wynikiem Dooba [Dooba] w słabej zgodności estymatora Bayesa.Pθ0

Więc tutaj estymatory bayesowskie i MLE są rozbieżne. Jeśli nadal będziemy używać słabej topologii do omawiania spójności estymatorów bayesowskich, nie ma to znaczenia, ponieważ estymatory bayesowskie zawsze (z prawdopodobieństwem jeden) będą spójne przez Dooba. Dlatego bardziej odpowiednią topologią jest topologia rozkładu Schwarza, która dopuszcza słabe pochodne i pojawiła się teoria von Misesa. Barron miał bardzo ładny raport techniczny na ten temat, w jaki sposób możemy wykorzystać twierdzenie Schwartza, aby uzyskać spójność.

Z innej perspektywy estymatory bayesowskie są rozkładami, a ich topologia powinna być czymś innym. Jaką rolę odgrywa rozbieżność w tego rodzaju topologii? Odpowiedź jest taka, że ​​definiuje on obsługę KL priorów, co pozwala na bardzo spójną estymację bayesowską.D

Wpływa to na „wynik uczenia się pojedynczego”, ponieważ, jak widzimy, twierdzenie o spójności Dooba zapewnia, że ​​estymatory bayesowskie są słabo spójne (nawet w modelu pojedynczym) w słabej topologii, podczas gdy MLE powinien spełniać pewne wymagania w tej samej topologii.

Tylko jedno słowo [Watanabe] nie jest dla początkujących. Ma to pewne głębokie implikacje dla prawdziwych zbiorów analitycznych, które wymagają większej matematycznej dojrzałości niż większość statystyków, więc prawdopodobnie nie jest dobrym pomysłem czytanie jej bez odpowiednich wskazówek.

Referencje

[Watanabe] Watanabe, Sumio. Geometria algebraiczna i statystyczna teoria uczenia się. Vol. 25. Cambridge University Press, 2009.

[Huber] Huber, Peter J. „Zachowanie szacunków maksymalnego prawdopodobieństwa w niestandardowych warunkach”. Materiały z piątego sympozjum Berkeley na temat statystyki matematycznej i prawdopodobieństwa. Vol. 1. nr 1. 1967.

[Doob] Doob, Joseph L. „Zastosowanie teorii martingales”. Le calcul des probabilites et ses applications (1949): 23–27.


Próbuję dać trochę intuicji dla części odpowiedzi, więc popraw mnie, jeśli się mylę. Estymator Bayesa jest spójny, jeśli widzimy go jako estymator punktowy (MAP, a nie rozkład probabilistyczny). Wymaga mniej warunków dla swojej spójności niż MLE intuicyjnie z powodu wcześniejszego działania jako regularyzacji. Z drugiej strony topologia rozkładu Schwartza jest bardziej odpowiednia, gdy widzimy estymator Bayesa jako rozkład, a także pomaga zbudować bliższą zależność między spójnością MLE i estymatora Bayesa, tak że przypadek, w którym jedna rozbieżna i druga zbieżna, nie wystąpi .
ziyuang

Przepraszam, ale nie sądzę, aby twoje wyjaśnienie było prawidłowe Wcześniej działa jako regularyzacja, ale niekoniecznie kontroluje wskaźnik konwergencji. W rzeczywistości płaskie priorytety spowalniają konwergencję. Są to po prostu dwie różne topologie.
Henry.L
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.