Aby zrozumieć dyskusję Watanabe, ważne jest, aby zdać sobie sprawę z tego, co miał na myśli przez „osobliwość”. (Ścisła) osobliwość pokrywa się z geometrycznym pojęciem metryki osobliwości w jego teorii.
str. 10 [Watanabe]: „ Mówi się, że model statystyczny jest regularny, jeśli można go zidentyfikować i ma dodatnią określoną metrykę. Jeśli model statystyczny nie jest regularny, nazywa się go ściśle pojedynczym.”p(x∣w)
W praktyce osobliwość powstaje zwykle wtedy, gdy metryka informacji Fishera indukowana przez model jest zdegenerowana na rozmaitości zdefiniowanej przez model, podobnie jak przypadki niskiej rangi lub rzadkie przypadki w „uczeniu maszynowym”.
To, co powiedział Watanabe o zbieżności empirycznej dywergencji KL do jej wartości teoretycznej, można zrozumieć w następujący sposób. Jednym z powodów pojęcia rozbieżności jest solidna statystyka. Estymatory M, które obejmują MLE jako specjalny przypadek z funkcją kontrastu , są zwykle omawiane przy użyciu słabej topologii. Rozsądne jest omówienie zachowania konwergencji przy użyciu słabej topologii w przestrzeni M ( X ) (różnorodność wszystkich możliwych miar określonych w polskiej przestrzeni Xρ(θ,δ(X))=−logp(X∣θ)M(X)XD(θ0,θ)=Eθ0ρ(θ,δ) sup θ | 1
inf|θ−θ0|≥ϵ(|D(θ0,θ)−D(θ0,θ0)|)>0
supθ∣∣∣1n∑iρ(θ,δ(Xi))−D(θ0,θ)∣∣∣→0,n→∞
θn^:=argminθρ(θ,δ(Xn))
θ0z prawdopodobieństwem . Wynik ten wymaga znacznie bardziej precyzyjnych warunków, jeśli porównamy go z wynikiem Dooba [Dooba] w słabej zgodności estymatora Bayesa.
Pθ0
Więc tutaj estymatory bayesowskie i MLE są rozbieżne. Jeśli nadal będziemy używać słabej topologii do omawiania spójności estymatorów bayesowskich, nie ma to znaczenia, ponieważ estymatory bayesowskie zawsze (z prawdopodobieństwem jeden) będą spójne przez Dooba. Dlatego bardziej odpowiednią topologią jest topologia rozkładu Schwarza, która dopuszcza słabe pochodne i pojawiła się teoria von Misesa. Barron miał bardzo ładny raport techniczny na ten temat, w jaki sposób możemy wykorzystać twierdzenie Schwartza, aby uzyskać spójność.
Z innej perspektywy estymatory bayesowskie są rozkładami, a ich topologia powinna być czymś innym. Jaką rolę odgrywa rozbieżność w tego rodzaju topologii? Odpowiedź jest taka, że definiuje on obsługę KL priorów, co pozwala na bardzo spójną estymację bayesowską.D
Wpływa to na „wynik uczenia się pojedynczego”, ponieważ, jak widzimy, twierdzenie o spójności Dooba zapewnia, że estymatory bayesowskie są słabo spójne (nawet w modelu pojedynczym) w słabej topologii, podczas gdy MLE powinien spełniać pewne wymagania w tej samej topologii.
Tylko jedno słowo [Watanabe] nie jest dla początkujących. Ma to pewne głębokie implikacje dla prawdziwych zbiorów analitycznych, które wymagają większej matematycznej dojrzałości niż większość statystyków, więc prawdopodobnie nie jest dobrym pomysłem czytanie jej bez odpowiednich wskazówek.
■ Referencje
[Watanabe] Watanabe, Sumio. Geometria algebraiczna i statystyczna teoria uczenia się. Vol. 25. Cambridge University Press, 2009.
[Huber] Huber, Peter J. „Zachowanie szacunków maksymalnego prawdopodobieństwa w niestandardowych warunkach”. Materiały z piątego sympozjum Berkeley na temat statystyki matematycznej i prawdopodobieństwa. Vol. 1. nr 1. 1967.
[Doob] Doob, Joseph L. „Zastosowanie teorii martingales”. Le calcul des probabilites et ses applications (1949): 23–27.