Wnioskowanie wolne od prawdopodobieństwa - co to znaczy?


11

Niedawno uświadomiłem sobie, że w literaturze omawiane są metody „pozbawione prawdopodobieństwa”. Nie jestem jednak pewien, co to znaczy, że metoda wnioskowania lub optymalizacji jest wolna od prawdopodobieństwa .

W uczeniu maszynowym celem jest zazwyczaj maksymalizacja prawdopodobieństwa, że ​​niektóre parametry dopasują się do funkcji, np. Wagi w sieci neuronowej.

Więc jaka jest dokładnie filozofia podejścia wolnego od prawdopodobieństwa i dlaczego sieci przeciwników, takie jak GAN, należą do tej kategorii?

Odpowiedzi:


10

Istnieje wiele przykładów metod nieopartych na prawdopodobieństwach w statystykach (nie wiem o uczeniu maszynowym). Kilka przykładów:

  1. Czyste testy Fishera . Oparty tylko na ostro zdefiniowanej hipotezie zerowej (takiej jak brak różnicy między mlekiem pierwszym a mlekiem ostatnim w eksperymencie Lady Tasting Tea. To założenie prowadzi do zerowego rozkładu hipotezy, a następnie wartości p. Brak prawdopodobieństwa. Ta minimalna inferencyjna maszyneria nie może samo w sobie stanowić podstawy do analizy mocy (brak formalnie zdefiniowanej alternatywy) lub przedziałów ufności (brak formalnie zdefiniowanego parametru).

  2. Testy randomizacji powiązane są z 1. Różnicą między testem randomizacji a testem permutacji , który w najbardziej podstawowej formie jest testem istotności.

  3. Ładowanie początkowe odbywa się bez potrzeby korzystania z funkcji wiarygodności. Ale istnieją powiązania z pomysłami dotyczącymi prawdopodobieństwa, na przykład prawdopodobieństwo empiryczne .

  4. Metody oparte na rangach zwykle nie wykorzystują prawdopodobieństwa.

  5. Wiele solidnych statystyk.

  6. Przedziały ufności dla mediany (lub innych kwantyli) mogą być oparte na statystykach zamówień. Obliczenia nie uwzględniają prawdopodobieństwa. Przedział ufności dla mediany , najlepszy estymator dla wariancji mediany empirycznej

  7. V Vapnik wpadł na pomysł transdukcyjnego uczenia się, które wydaje się być powiązane z https://en.wikipedia.org/wiki/Epilogizmem, jak omówiono w Taleb Black Swan i Black Swan .

  8. W książce Analiza danych i modele przybliżone Laurie Davis buduje systematyczną teorię modeli statystycznych jako przybliżeń, przedziały ufności zostały zastąpione przedziałami przybliżeń i nie ma rodzin parametrycznych rozkładów , brak tylko i tak dalej. I żadnych prawdopodobieństw.N(μ,σ2)N(9.37,2.122)

W chwili, gdy masz funkcję prawdopodobieństwa, istnieje ogromna maszyneria do zbudowania. Bayesianie nie mogą się obejść, a większość innych wykorzystuje prawdopodobieństwo przez większość czasu. Ale w komentarzu wskazano, że nawet Bayesianie próbują obejść się bez niego, patrz Approximate_Bayesian_computation . Jest nawet nowy tekst na ten temat.

Ale skąd one pochodzą? Aby uzyskać funkcję prawdopodobieństwa w zwykły sposób, potrzebujemy wielu założeń, które mogą być trudne do uzasadnienia.

Interesujące jest pytanie, czy możemy w jakiś sposób skonstruować funkcje wiarygodności z niektórych metod wolnych od prawdopodobieństwa. Na przykład, w pkt 6. powyżej, czy możemy zbudować funkcję prawdopodobieństwa dla mediany z (rodziny) przedziałów ufności obliczonych na podstawie statystyk zamówień? Powinienem zadać to jako osobne pytanie ...

Twoje ostatnie pytanie dotyczące GAN muszę pozostawić innym.


7
(+1) Ale patrz przybliżone obliczenia bayesowskie . (Mam wrażenie, że „wolne od prawdopodobieństwa” jest częściej używane w procedurach, w których można oczekiwać opracowania funkcji wiarygodności, ale nie jest to konieczne; zamiast w testach randomizacji i tym podobnych, dla których oczywiście nie t.)
Scortchi - Przywróć Monikę

9

W szczególności [ostatnie] metody wolne od prawdopodobieństwa to przeredagowanie algorytmów ABC, gdzie ABC oznacza przybliżone obliczenie bayesowskie . Ma to na celu objęcie metod wnioskowania, które nie wymagają użycia funkcji wiarygodności w formie zamkniętej, ale nadal mają na celu zbadanie konkretnego modelu statystycznego. Są wolne od trudności obliczeniowych związanych z prawdopodobieństwem, ale nie od modelu, który wytwarza to prawdopodobieństwo. Zobacz na przykład

  1. Grelaud, A; Marin, JM; Robert, C; Rodolphe, F; Tally, F (2009). „Bezwiarygodne metody wyboru modelu w losowych polach Gibbsa”. Analiza bayesowska. 3: 427–442 .
  2. Ratmann, O; Andrieu, C; Wiuf, C; Richardson, S (2009). „Modelowa krytyka oparta na wnioskowaniu wolnym od prawdopodobieństwa, z zastosowaniem do ewolucji sieci białek”. Postępowania z National Academy of Sciences of United States of America. 106: 10576–10581 .
  3. Bazin, E., Dawson, KJ i Beaumont, MA (2010). Wnioskowanie struktury populacji i lokalnej adaptacji bez prawdopodobieństwa w bayesowskim modelu hierarchicznym. Genetics, 185 (2), 587-602 .
  4. Didelot, X; Everitt, RG; Johansen, AM; Lawson, DJ (2011). „Bezwiarygodne oszacowanie dowodów modelowych”. Analiza bayesowska. 6: 49–76 .
  5. Gutmann, M. and Corander, J. (2016) Optymalizacja Bayesa dla wnioskowania bez prawdopodobieństwa modeli statystycznych opartych na symulatorze Journal of Machine Learning Research .

2

Aby dodać do litanii odpowiedzi, statystyki asymptotyczne są w rzeczywistości wolne od prawdopodobieństw.

„Prawdopodobieństwo” odnosi się tutaj do modelu prawdopodobieństwa danych . Może mnie to nie obchodzi. Ale mogę znaleźć jakiś prosty estymator, taki jak średnia, który jest odpowiednim podsumowaniem danych i chcę wyciągnąć wnioski na temat średniej rozkładu (zakładając, że istnieje, co jest często rozsądnym założeniem).

Według centralnego twierdzenia o granicy średnia ma przybliżony rozkład normalny w dużym N, gdy istnieje również wariancja. Mogę tworzyć spójne testy (moc idzie do 1, gdy N idzie do nieskończoności, gdy null jest fałszem), które mają odpowiedni rozmiar. Chociaż mam model prawdopodobieństwa (który jest fałszem) dla rozkładu próbkowania średniej w skończonych rozmiarach próby, mogę uzyskać prawidłowe wnioskowanie i obiektywne oszacowanie w celu rozszerzenia mojego „użytecznego podsumowania danych” (średnia).

Należy zauważyć, że testy oparte na 95% CI dla mediany (tj. Opcja 6 w odpowiedzi @ kjetilbhalvorsen) również opierają się na centralnym twierdzeniu granicznym, aby wykazać, że są one spójne. Nie jest więc szaleństwem uważać prosty test T za test „nieparametryczny” lub „oparty na braku wiarygodności”.


1

Po stronie uczenia maszynowego: w uczeniu maszynowym zwykle próbujesz zmaksymalizować , gdzie jest celem, a jest wejściem (na przykład x może być pewnym przypadkowym szumem, a y jest obrazem ). Jak możemy to zoptymalizować? Typowym sposobem na to jest założenie, że . Jeśli przyjmiemy to, prowadzi to do średniego błędu kwadratu. Zauważ, że przyjęliśmy jako formę dla . Jeśli jednak nie zakładamy żadnej dystrybucji, nazywa się to nauką wolną od prawdopodobieństwa.p(y|x)xyp(y|x)=N(y|μ(x),σ)p ( y | x )p(y|x)

Dlaczego GAN są objęte tym zakresem? Cóż, funkcja Loss jest siecią neuronową, a ta sieć neuronowa nie jest stała, ale uczy się wspólnie. Dlatego nie zakładamy już żadnej formy (poza tym, że należy do rodziny rozkładów, które mogą być reprezentowane przez dyskryminator, ale dla teorii mówimy, że i tak jest to uniwersalny aproksymator funkcji).p(y|x)

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.