Bayesianie: niewolnicy funkcji prawdopodobieństwa?


62

W swojej książce „All of Statistics” prof. Larry Wasserman przedstawia następujący przykład (11.10, strona 188). Załóżmy, że mamy gęstość taką, że , gdzie jest znaną (nieujemną, całkowitą) funkcją, a stała normalizacyjna jest nieznana .fg c > 0f(x)=cg(x)gc>0

Interesują nas te przypadki, w których nie możemy obliczyć . Na przykład może się zdarzyć, że jest pdf w bardzo wielowymiarowej przestrzeni próbki.c=1/g(x)dxf

Powszechnie wiadomo, że istnieją techniki symulacji, które pozwalają nam pobierać próbki , mimo że jest nieznane. Zatem zagadka brzmi: jak możemy oszacować podstawie takiej próbki?fcc

Prof Wasserman opisuje następujące rozwiązanie Bayesa niech być nieco przed dla . Prawdopodobieństwo to Dlatego tylna nie zależy od wartości próbek . Dlatego Bayesjanin nie może wykorzystywać informacji zawartych w próbce do wyciągania wniosków na temat .πcπ ( c x ) c n π ( c ) x 1 , , x n c

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

Prof. Wasserman zwraca uwagę, że „Bayesianie są niewolnikami funkcji prawdopodobieństwa. Kiedy prawdopodobieństwo pójdzie nie tak, podobnie będzie z wnioskowaniem Bayesa”.

Moje pytanie dla innych osób układających w stosy brzmi: jeśli chodzi o ten konkretny przykład, co poszło nie tak (jeśli w ogóle) w metodologii bayesowskiej?

PS Jak uprzejmie wyjaśnił prof. Wasserman w swojej odpowiedzi, przykład należy do Eda George'a.


10
Ten przykład wydaje się po prostu dziwnym, nieskutecznym sposobem przeprowadzania integracji numerycznej, a nie jak jakakolwiek analiza bayesowska.
whuber

2
Jak możesz powiedzieć, że Bayesian nie uczy się nic o . Gdyby tak było, mielibyśmy . Oczywiście nie jest. π ( c | x ) π ( c )cπ(c|x)π(c)
prawdopodobieństwo prawdopodobieństwa

2
Naprawdę nie rozumiem tego przykładu. Jeśli nie zależy od to czy nie jest zaskakujące, że dane nie mają charakteru informacyjnego, ponieważ wtedy zależy tylko od postaci i czy jest takie samo dla próbki? Oczywiście brakuje mi jakiegoś subtelnego (lub nie tak subtelnego) punktu. cg()cg ( ) a n ycg()any
Dikran Marsupial

Opracowałem formalnie podejście bayesowskie, które może przezwyciężyć sprzeciw @ Zen, nie przeciwwskazuje braku zainteresowania Xi'ana i kończy się na ocenie dokładności integracji numerycznej.
phaneron

1
Miła kontynuacja na blogu Larry'ego: normaldeviate.wordpress.com/2012/10/05/…
Zen.

Odpowiedzi:


43

Zostało to omówione w mojej pracy (opublikowanej tylko w Internecie) „Na przykładzie Larry'ego Wassermana” [ 1 ] oraz w wymianie blogów między mną, Wassermanem, Robinsem i innymi komentatorami na blogu Wassermana: [ 2 ]

Krótka odpowiedź jest taka, że ​​Wasserman (i Robins) generują paradoksy, sugerując, że priory w przestrzeniach o dużych wymiarach „muszą” mieć cechy, które sugerują, że albo interesujący parametr jest znany z góry z całą pewnością, albo że wyraźnie istotny problem (stronniczość wyboru) wiadomo z niemal całkowitą pewnością, że nie będzie obecny. W rzeczywistości rozsądni priory nie mieliby takich cech. Jestem w trakcie pisania podsumowującego posta na blogu, aby to wspólnie narysować. Istnieje doskonały artykuł z 2007 roku, pokazujący rozsądne bayesowskie podejście do przykładów, które rozważają Wasserman i Ritov, Hamelinga i Toussaint'a: „Bayesowskie estymatory problemu Robinsa-Ritova” [ 3 ]


12
Dziękuję za wkład, prof. Sims. Czy zgadzasz się z moją odpowiedzią poniżej? PS Teraz mamy nagrody Nobla publikujące na SE. Co ty na to? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen

1
@ChrisSims Professor Sims Dzięki za przybycie i zdmuchnięcie mojej odpowiedzi z bardzo autorytatywną odpowiedzią!
Michael Chernick

4
Jestem zaniepokojony faktem, że ta odpowiedź ma największą liczbę głosów (jak na razie). Jak zauważa prof. Wasserman, odpowiedź prof. Simsa dotyczy zupełnie innej układanki niż ta, o którą pytał Zen. Wnioskuję, że większość ludzi głosowała za nim, nie czytając i nie rozumiejąc linków dostarczonych przez Simsa.
Cyan

3
Cyan, komentarze Prof. Sima dotyczące tej układanki można znaleźć w Link [1], WassermanComment.pdf, s. 1. 10 sekcja VII. Postscript 2.
madprob

43

W tym przykładzie nie widzę wiele odwołania, szczególnie. jako potencjalna krytyka Bayesianów i prawdopodobieństwa-ścian .... Znana jest stała , równa Jeśli jest jedynym „ nieznany”w obrazie, ponieważ próbka , to nie jest żaden problem statystyczny o problemie i nie zgadzam się, że istnieją estymatory o . Ani priory na (inne niż masa Diraca dla powyższej wartości). Nie jest to co najmniej problem statystyczny, ale raczej problem liczbowy .1 /X g ( x ) d x c x 1 , , x n c cc

1/Xg(x)dx
cx1,,xncc

To, że próbka może być wykorzystana poprzez (częste) oszacowanie gęstości w celu zapewnienia numerycznego przybliżenia jest zwykłą ciekawostką. Brak krytyki alternatywnych podejść statystycznych: mógłbym również użyć szacunku gęstości Bayesa ... cx1,,xnc


4
Nie jest możliwe, aby zacząć od właściwego przeora i skończyć z niewłaściwym a posteriori, jeśli prawdopodobieństwo jest prawdziwą gęstością warunkową!
Xi'an

Jak zdefiniować różnicę między nieznaną stałą a parametrem? We wstępie do prawdopodobieństwa de Finetti rozważa wywołanie niepewności dla . Czy de Finetti uznałby, że różni się od ? Jeśli nie, czy obserwowanie danych zmieniłoby jego niepewność co do ? Dotyczy również nieznanych stałych / parametrów. Powiedzmy, że Alice wybiera stałą i wpisuje w , . Chociaż jest nieznaną stałą, Bob byłby w stanie uzyskać swój przeor dla i użyć aby dowiedzieć się oc π X 1 , X 2 , , X n c c R x = r n o r m ( 100 , c , 1 ) c c x c cπcπX1,X2,,XnccRx=rnorm(100,c,1)ccxc. Dlaczego w przykładzie Wassermana jest inny? c
madprob

3
Nie jestem de Finetti, więc nie mogę za niego odpowiedzieć!
Xi'an

3
Twój przykład jest statystyczny: otrzymuję obserwacje, których rozkładem rządzi nieznany parametr c . Przykład Larry'ego (lub Eda!) Nie jest statystyczny: rozkład próbki jest całkowicie znany i nie jest sterowany przez nieznany parametr c . Ilustruje to odpowiedź Zen : po prostu nie możesz napisać bez zakończenia paradoksem, ponieważ istnieje tylko jedna możliwa wartość c. f(x1,,xn|c)
Xi'an

40

Zgadzam się, że przykład jest dziwny. Miałem na myśli, że to naprawdę układanka. (Ten przykład jest właściwie spowodowany przez Eda George'a.)

Rodzi to pytanie, co to znaczy „być znanym”. Christian mówi, że jest znane. Ale, przynajmniej z czysto subiektywnego punktu widzenia prawdopodobieństwa, nie znasz tego tylko dlatego, że w zasadzie można go poznać. (Załóżmy, że nie można wykonać całki liczbowej.) Subiektywny Bayesian uważa wszystko za zmienną losową o rozkładzie, w tym .ccc

W każdym razie papier

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae i Z. Tan (2003), Teoria modeli statystycznych dla integracji Monte Carlo , J. Royal Statistic. Soc. B , vol. 65, nr 3, 585–604

(z dyskusją) traktuje zasadniczo ten sam problem.

Przykład, do którego nawiązuje Chris Sims w swojej odpowiedzi, ma zupełnie inny charakter.


3
Profesor Wasserman Dziękuję za przybycie i wyjaśnienie twojego przykładu i jego historii. Byłem doktorantem w Stanford i pokrywałem się z Edem Georgem. Departament Statystyki Stanford był wtedy bardzo nie Bayesowski, chociaż z Efronem i Steinem byliśmy na marginesie empirycznych Bayesów. Dział był jednak bardzo otwarty, a Dennis Lindley ukończył kurs statystyki bayesowskiej, który odbyłem pewnego lata. W jakiś sposób Ed przekształcił się w pełnoprawnego Bayesa, a nawet napisał artykuł na temat pobierania próbek Gibbs dla manekinów (choć nie z tym tytułem).
Michael Chernick

1
Z przyjemnością czytam wasze małe książki „All of Statistics” i „All of Nonparametrics”.
Michael Chernick

1
może nie tak przypadkowo omówiłem ten artykuł Konga i in. (2003), ponieważ negatywnie odnosi się głównie do efektywności wykorzystania transformacji grupowych w odniesieniu do miary, a nie do rozkładu. Ostatnio Xiao-Li skłonił mnie do bardziej pozytywnego postrzegania papieru ...
Xi'an

1
„Załóżmy, że nie można wykonać całki liczbowej”. Rozumiem, że niepewność logiczna (której jest to przykład) oparła się analizie pomimo znacznych wysiłków.
John Salvatier,

Zgodnie z tą samą logiką, że jest nieznany, ponieważ nie można go obliczyć, myślę, że musiałbyś również dojść do wniosku, że funkcja jest „nieznana” i umieścić pierwszeństwo w przestrzeni funkcji, w której żyje. Z pewnością „wiesz” , , ... ponieważ możesz ocenić , ale z perspektywy analizy funkcjonalnej twierdzę, że nie wiesz, czym jest funkcja, chyba że możesz przetestować ją na dowolnym elemencie dualności przestrzeń, na przykład funkcjonalność integracji. g g ( x 1 ) g ( x 2 ) gcgg(x1)g(x2)g
Nick Alger

23

Proponowany model statystyczny można opisać w następujący sposób: mieć znaną nieujemną funkcji zabudowy i nieujemne zmienną losową . Zmienne losowe powinny być warunkowo niezależne i identycznie rozmieszczone, biorąc pod uwagę, że , o gęstości warunkowej , dla .g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

Niestety ogólnie nie jest to prawidłowy opis modelu statystycznego. Problem polega na tym, że z definicji musi być gęstością prawdopodobieństwa dla prawie każdej możliwej wartości , co ogólnie jest wyraźnie fałszywe. W rzeczywistości jest to prawdą tylko dla pojedynczej wartości . Dlatego model jest poprawnie określony tylko w trywialnym przypadku, gdy rozkład jest skoncentrowany na tej konkretnej wartości. Oczywiście nie jesteśmy zainteresowani tą sprawą. Chcemy, aby rozkład był zdominowany przez miarę Lebesgue'a, z ładnym pdf .fXiC(c) cc=(g(x)dx)1CCπ

Stąd, definiując , wyrażenie wzięte jako funkcja o , dla stałych , nie odpowiada rzeczywistej funkcji prawdopodobieństwa.x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

Wszystko po tym dziedziczy po tym problemie. W szczególności, a posterior obliczony za pomocą twierdzenia Bayesa jest fałszywy. Łatwo to zauważyć: załóżmy, że masz prawidłową wcześniejszą Zauważ, że . Zgodnie z obliczeniami przedstawionymi w przykładzie, tylny powinien być Ale jeśli to prawda, ten tylny byłby zawsze niewłaściwy, ponieważ różni się dla każdej wielkości próbki .

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

Jest to niemożliwe: wiemy, że jeśli zaczniemy od właściwego uprzedniego, nasz tylny nie może być niewłaściwy dla każdej możliwej próbki (może być niewłaściwy w zestawie zerowego prawdopodobieństwa wcześniejszego przewidywania).


Przykro mi, że nikt nie skomentował twojej odpowiedzi. Myślę, że możesz mieć rację, ale jestem trochę zdziwiony. Z pewnością możesz umieścić prawidłowe wcześniejsze rozkłady na dodatnich liczbach rzeczywistych. Dlaczego nie można zdefiniować gęstości prawdopodobieństwa f dla każdego c> 0, jeśli g jest nieujemne, mając skończoną całkę na R ? +
Michael Chernick

1
Cześć Michał. Oczywiście, że możesz: Gamma, Lognormal itp. Nie wiem, jak to się ma do odpowiedzi. Prawdopodobnie nie rozumiem co mówisz.
Zen

Mam problem ze śledzeniem twojego argumentu. Mówisz, że gęstość warunkowa dla f istnieje tylko dla jednego c, ale to nieprawda. Nie rozumiem, dlaczego wyrażenie prawdopodobieństwa jest niepoprawne i jak uzyskać dowód przez sprzeczność, zakładając odpowiedni uprzedni i w jakiś sposób pokazując, że prowadzi to do niewłaściwego rozkładu z tyłu.
Michael Chernick

Wydaje mi się, że sedno problemu polega na tym, że dane są naprawdę niezależne od c i nie zawierają żadnych informacji o c. Myślę, że można powiedzieć, że istnieje funkcja prawdopodobieństwa obejmująca c, ale tego prawdopodobieństwa nie można zmaksymalizować jako funkcji c. Myślę, że dla każdego wyboru c istnieje f = cg.
Michael Chernick

4
Każdy właściwy uprzedni bez n-tego momentu działałby również w twoim przykładzie. Zgadzam się, że to przydatny sposób wykazania, że ​​coś jest nie tak. Myślę, że przeor nie opiera się na znajomości . Ponieważ znasz Istnieje tylko jedna wcześniejsza zgodność z tymi informacjami. To jest funkcja delta diraca . Korzystanie z jakiegokolwiek innego uprzedniego jest logicznie niepoprawne. To jak powiedzenie gdy nie jest niezależne od biorąc pod uwagęg(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
prawdopodobieństwo

11

Przykład jest trochę dziwny i wymyślony. Prawdopodobieństwo nie powiodło się, ponieważ g jest znaną funkcją. Jedynym nieznanym parametrem jest c, który nie jest częścią prawdopodobieństwa. Ponieważ g jest znany, dane nie dają żadnych informacji na temat f. Kiedy widzisz coś takiego w praktyce? Więc tylny jest tylko proporcjonalny do przeora, a wszystkie informacje o c znajdują się w przeorze.

Dobrze, ale pomyśl o tym. Częstotliwości używają maksymalnego prawdopodobieństwa, dlatego częstokrzydzi czasami polegają również na funkcji prawdopodobieństwa. Cóż, częsty może oszacować parametry na inne sposoby. Ale ten problem z gotowaniem ma tylko jeden parametr c i nie ma informacji w danych o c. Ponieważ znany jest g, nie ma problemu statystycznego związanego z nieznanymi parametrami, które można uzyskać z okresu danych.


Dziękuję Michael. Dziwna sytuacja, prawda? Prof. Wasserman sugeruje następujący sposób oszacowania : weź dowolny (częsty) spójny estymator gęstości (na przykład jakiś estymator jądra). Wybierz dowolny punkt i zwróć uwagę, że jest spójnym estymatorem . cf^fxc^=f^(x)/g(x)c
Zen.

4
@Zen Dobra, weźmy ten przykład. Po co zbierać jakiekolwiek dane? Wiemy g. Możemy więc zintegrować go liczbowo, aby określić c do dowolnego poziomu dokładności, jakiego pragniemy, bez konieczności szacowania czegokolwiek! Założenie, że nie możemy obliczyć c, co oznacza, że ​​chociaż znamy g jako funkcję x, nie możemy go zintegrować! Myślę, że jego przykład jest słaby, podobnie jak argument i ogólnie podoba mi się jego książki.
Michael Chernick

11

Jak na ironię, standardowym sposobem wykonywania obliczeń bayesowskich jest częste analizowanie próbek MCMC. W tym przykładzie możemy uznać, że jest ściśle związane z krańcowym prawdopodobieństwem, które chcielibyśmy obliczyć, ale będziemy purystami bayesowskimi w sensie próby przeprowadzenia obliczeń również w sposób bayesowski.c

Nie jest to powszechne, ale można wykonać tę całkę w ramach Bayesa. Wiąże się to z nadaniem funkcji (w praktyce proces Gaussa) oceny funkcji w niektórych punktach, uwarunkowaniem tych punktów i obliczeniem całki ponad tylną nad . W tej sytuacji prawdopodobieństwo polega na ocenie w wielu punktach, ale jest poza tym nieznane, dlatego prawdopodobieństwo jest zupełnie inne niż podane powyżej prawdopodobieństwo. Metodę przedstawiono w tym artykule http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg()g()g()g()

Nie sądzę, żeby coś poszło nie tak z metodologią bayesowską. Prawdopodobieństwo zapisane traktuje jak wiadomo wszędzie. Gdyby tak było, nie byłoby statystycznego aspektu problemu. Jeśli zakłada się, że jest nieznany, z wyjątkiem skończonej liczby punktów, metodologia bayesowska działa dobrze.g()g()


Zaskoczony, że nie ma więcej pozytywnych opinii. To prowadzi do sedna problemu, którym jest dwuznaczne twierdzenie, że „wiesz”, co to jest funkcja tylko dlatego, że możesz ją ocenić w dowolnym momencie. Myślę, że bardziej odpowiednim kryterium mówiącym, że „znasz” funkcję, jest zdolność oceny dowolnej ciągłej funkcji liniowej na niej.
Nick Alger,

@Nick Alger: Ludzie podobnie stracili zainteresowanie. Nie popieram go, ponieważ nie jestem przekonany, czy to Bayes - czy xi w zbiorze D (xi, f (xi)) odnoszą się do xi zaobserwowanego w badaniu lub losowo przez nie generowanego? Jeśli jest to pierwszy, to jest to Bayes, ale bardzo łatwy do pokonania za pomocą zwykłego MC z kilkoma sekundami czasu obliczeniowego (więc nie działa dobrze) lub jego brak Bayesa (nie zależy od danych).
phaneron

-2

Możemy rozszerzyć definicję możliwych wiadome (analogicznie do rozszerzenia danych pozwalających na brakujące dane dla punktu odniesienia, który był obserwowany , ale stracił) zawierać NULL (brak danych wygenerowanych).

Załóżmy, że masz poprawną wcześniejszą Teraz zdefiniuj model danych dla x

π(c)=1c2I[1,)(c).

Jeślic=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {a dla dowolnego}

W przeciwnym raziefaXaC(xac)=0

Zatem wartość tylna wynosiłaby 0 lub 1 (właściwa), ale prawdopodobieństwo z powyższego modelu danych nie jest dostępne (ponieważ nie można określić warunku wymaganego w modelu danych).

Więc robisz ABC.

Narysuj „c” z wcześniejszego.

Teraz przybliżmy przez pewną integrację numeryczną i zachowaj „c”, jeśli to przybliżenie - „c” <epsilon.(g(x)dx)1

Zachowane litery „c” będą przybliżeniem prawdziwego tyłu.

(Dokładność przybliżenia będzie zależeć od epsilon i wystarczalności uwarunkowania od tego przybliżenia.)


-5

π(c|x)=(Πig(xi))cnπ(c),
{xi}

2
Drogi mylić: powyższe równanie jest nieprawidłowe. Gdzie jest mianownik (krańcowe prawdopodobieństwo )? Podziel przez a zobaczysz, że anuluje się. „Tylny” w książce jest błędny z innych powodów. Proszę, sprawdź moją odpowiedź. f ( x c )xn i = 1 g ( x i )f(xc)π(c)dci=1ng(xi)
Zen.
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.