Jak statystyki bayesowskie radzą sobie z brakiem priorytetów?

16

To pytanie zostało zainspirowane dwiema niedawnymi interakcjami, które miałem, jedną tutaj w CV , drugą w ekonomics.se.

Tam miałem wysłana odpowiedź do znanego „Koperta Paradox” (Pamiętaj, a nie jak w „poprawnej odpowiedzi”, ale jako odpowiedź płynącą z określonych założeń o strukturze sytuacji). Po pewnym czasie użytkownik opublikował krytyczny komentarz, a ja zaangażowałem się w rozmowę, próbując zrozumieć jego punkt widzenia. Było oczywiste, że myślał tak Bayesa i przestawał mówić o priors-i wtedy dotarło do mnie, a ja powiedziałem do mojej jaźni: "Chwileczkę, który powiedział coś o dowolny przed? W sposób, jaki sformułował problem, nie ma tu żadnych priorytetów, po prostu nie wchodzą na obraz i nie muszą ".

Ostatnio widziałem tę odpowiedź tutaj w CV, dotyczącą znaczenia niezależności statystycznej. Skomentowałem autorowi, że jego zdanie

„... jeśli zdarzenia są statystycznie niezależne, to (z definicji) nie możemy dowiedzieć się o jednym z obserwacji drugiego”.

rażąco się mylił. W ramach wymiany komentarzy wciąż powracał do kwestii (swoich słów)

„Czy„ uczenie się ”nie oznaczałoby zmiany naszych przekonań na temat rzeczy opartych na obserwacji innej osoby? Jeśli tak, to czy niezależność (definitywnie) nie wyklucza tego?

Po raz kolejny było oczywiste, że myślał w sposób bayesowski i że uważał za oczywiste, że zaczynamy od pewnych przekonań (tj. Wcześniejszych) , a następnie kwestią jest to, jak możemy je zmienić / zaktualizować. Ale jak powstaje pierwsze przekonanie?

Ponieważ nauka musi być zgodna z rzeczywistością, zauważam, że istnieją sytuacje, w których zaangażowani ludzie nie mają żadnych priorytetów (po pierwsze, wchodzę w sytuacje bez wcześniejszego czasu - i proszę, nie twierdzę, że mam takie priorytety, ale ja tylko nie zdawaj sobie z tego sprawy, oszczędzajmy sobie tutaj fałszywej psychoanalizy).

Ponieważ zdarzyło mi się słyszeć termin „nieinformacyjne priory”, dzielę swoje pytanie na dwie części i jestem całkiem pewien, że użytkownicy tutaj, którzy są bystrzy w teorii bayesowskiej, wiedzą dokładnie, o co zamierzam zapytać:

P1: Czy brak wcześniejszego ekwiwalentu (w ścisłym sensie teoretycznym) posiadania nieinformacyjnego przeora?

Jeśli odpowiedź na pytanie 1 brzmi „tak” (proszę o pewne rozwinięcie), oznacza to, że podejście bayesowskie ma zastosowanie uniwersalne i od samego początku , ponieważ w każdym przypadku zaangażowana osoba deklaruje „nie mam żadnych priorytetów”, które możemy uzupełnić jego miejsce nie jest pouczające dla omawianej sprawy.

Ale jeśli odpowiedź na Q1 jest „Nie”, a następnie Q2 przychodzi:

Pytanie 2: Jeśli odpowiedź na pytanie 1 brzmi „Nie”, oznacza to, że w przypadkach, w których nie ma żadnych priorytetów, podejście bayesowskie nie ma zastosowania od samego początku i musimy najpierw utworzyć przeorat w jakiś sposób nie bayesowski, abyśmy mogli następnie zastosować podejście bayesowskie?

— Alecos Papadopoulos
źródło

2

Zauważyłem, że jako naukowiec „brak wcześniejszego przekonania” jest dość ekstremistycznym stwierdzeniem ... przypominającym widzenie tylko statycznego „śniegu” starego analogowego telewizora nastawionego na martwą stację i słyszącego tylko biały szum. W oczywisty sposób naukowcy nie wierzą, że nic na świecie nie odnosi się do niczego lub nie zawiera informacji o niczym ... gdybyśmy wierzyli, że nie bylibyśmy naukowcami. Oczywiście Bayesowskie sformułowanie „nieinformacyjnych” niesie bardzo ogólne przekonania o możliwości i prawdopodobieństwie.

— Alexis

2

@Alexis Zależy od sytuacji. Na przykład w „Envelop Paradox” Kwestia jest przecież patrząc na wysokości jednej kopertę zawierającą, czy ja miałem żadnego wcześniejszego przekonania o tym, czy to, co ja patrząc na to „duże” ilość lub „małe” kwota. I nie widzę tu nic ekstremalnego w deklarowaniu tutaj „Nie mam wcześniejszej wiary w tę sprawę”.

— Alecos Papadopoulos

1

Czy masz wcześniejsze przekonanie, że istnieją pewne kwoty i że mają one pewien rozkład między kopertami? (Nawet jeśli jesteś agnostyczny co do konkretnego rozkładu lub jego parametryzacji?)

— Alexis

1

@Alexis Pewnie, ale jest sformułowany jako wiedza strukturalna, która istnieje niezależnie od późniejszych informacji. To nie jest przekonanie, które wymaga aktualizacji. A ponieważ takie sformułowanie odzwierciedla postrzeganie przynajmniej jednego członka rasy ludzkiej (mnie), jest to sytuacja w świecie rzeczywistym, a pytanie brzmi, czy uważa się ją za poddaną analizie bayesowskiej, czy nie. Oczywiście w przypadku innej osoby, która deklaruje „Mam następujące wcześniejsze przekonanie na temat podziału kwot między koperty”, zastosowanie podejścia bayesowskiego jest oczywiste.

— Alecos Papadopoulos

2

Wydaje się, że wierzysz, że albo nie ma żadnego przeora, albo istnieje przeor. W modelu bayesowskim, jaki widzę, analiza tylna jest warunkowa lub względna w stosunku do wyboru wcześniejszego A i nie używam tego wcześniejszego jako absolutnego. Mój przeor jest naturalnym sposobem wprowadzenia struktury prawdopodobieństwa i pomiaru w przestrzeni parametrów.

— Xi'an

11

P1: Czy brak wcześniejszego ekwiwalentu (w ścisłym sensie teoretycznym) posiadania nieinformacyjnego przeora?

Nie.

Po pierwsze, nie ma matematycznej definicji „nieinformacyjnego przeora”. To słowo jest używane tylko nieoficjalnie, aby opisać niektóre priorytety.

Na przykład przeor Jeffreya jest często nazywany „nieinformacyjnym”. To wcześniejsze uogólnienie ujednoliconego wcześniejszego dla problemów niezmiennych w tłumaczeniu. Wcześniej Jeffrey w jakiś sposób dostosowuje się do (teoretycznej informacji) geometrii modelu Riemanniana, a zatem jest niezależny od parametryzacji, zależny tylko od geometrii rozmaitości (w przestrzeni rozkładów), która jest modelem. Może to być postrzegane jako kanoniczne, ale to tylko wybór. To tylko mundur wcześniejszy według struktury Riemanniana. Nie jest absurdem definiowanie „nieinformacyjny = mundur” jako uproszczenia pytania. Dotyczy to wielu przypadków i pomaga zadać jasne i proste pytanie.

$E(X)$ $X$ $X$ $[0;1]$

Podejścia bayesowskie i częste po prostu odpowiadają na różne pytania. Na przykład o estymatorach, które mogą być najprostsze:

$\theta$ $x$ $\theta$
$\theta$ $\theta$

Jakoś częstokroć dąży do kontroli najgorszego przypadku i nie potrzebuje uprzedniego. Bayesian dąży do średniej kontroli i wymaga uprzedniego powiedzenia „średnia w jakim sensie”.

Pytanie 2: Jeśli odpowiedź na pytanie 1 brzmi „Nie”, oznacza to, że w przypadkach, w których nie ma żadnych priorytetów, podejście bayesowskie nie ma zastosowania od samego początku i musimy najpierw utworzyć przeorat w jakiś sposób nie bayesowski, abyśmy mogli następnie zastosować podejście bayesowskie?

Tak.

$X\sim N(\mu,1)$ $\mu$

Moim zdaniem prawdziwe problemy z wcześniejszą specyfikacją zdarzają się w bardziej skomplikowanych problemach. Ważne jest, aby zrozumieć, co mówi pewien uprzedni.

— Benoit Sanchez
źródło

2

(+1) Dziękuję, to jest naprawdę pouczające.

— Alecos Papadopoulos

4

Przede wszystkim często stosuje się podejście bayesowskie, ponieważ chcesz uwzględnić wcześniejszą wiedzę w swoim modelu, aby ją wzbogacić. Jeśli nie masz żadnej wcześniejszej wiedzy, trzymaj się tak zwanych „nieinformacyjnych” lub cotygodniowych informacji. Zauważ, że jednolity przełożony nie jest z definicji „nieinformacyjny”, ponieważ założenie o jednolitości jest założeniem. Nie ma czegoś takiego jak naprawdę nieinformacyjny przeor. Są przypadki, w których „to może być cokolwiek” jest rozsądnym „nieinformacyjnym” wcześniejszym założeniem, ale są też przypadki, w których stwierdzenie, że „wszystkie wartości są jednakowo prawdopodobne” jest bardzo mocnym i nieuzasadnionym założeniem. Na przykład, jeśli przyjmiesz, że mój wzrost może wynosić od 0 centymetrów do 3 metrów, a wszystkie wartości są równie prawdopodobne z góry a priori, nie byłoby to rozsądnym założeniem i nadałoby zbyt duże znaczenie wartościom ekstremalnym, więc może to zniekształcić twój tył.

Z drugiej strony Bayesian argumentowałby, że tak naprawdę nie ma sytuacji, w których nie ma się żadnej wiedzy ani przekonań. Zawsze możesz coś założyć i jako człowiek robisz to przez cały czas (psychologowie i ekonomiści behawioralni przeprowadzili mnóstwo badań na ten temat). Cały zamieszanie bayesowskie z priorami dotyczy kwantyfikacji tych uprzedzeń i wyrażenia ich wprost w twoim modelu, ponieważ wnioskowanie bayesowskie dotyczy aktualizacji twoich przekonań .

Łatwo jest wymyślić argumenty „bez wcześniejszych założeń” lub jednolite priorytety dla abstrakcyjnych problemów, ale dla rzeczywistych problemów, które posiadasz wcześniej. Gdybyś musiał postawić zakład o kwotę pieniędzy w kopercie, wiedziałbyś, że kwota musi być nieujemna i skończona. Możesz również zgadnąć, co to jest górna granica możliwej kwoty pieniędzy, biorąc pod uwagę swoją wiedzę na temat zasad konkursu, środków dostępnych dla przeciwnika, wiedzę o fizycznym rozmiarze koperty i ilości pieniędzy, które mogłyby fizycznie zmieścić w nim itp. Możesz także zgadywać, ile pieniędzy twój przeciwnik może chcieć włożyć do koperty i być może stracić. Jest wiele rzeczy, które powinieneś znać jako podstawę swojego przeora.

— Tim
źródło

2

@AlecosPapadopoulos przepraszam, że nie powiedziałeś tego, co chciałeś usłyszeć, ale uważam, że jest to część odpowiedzi na twoje pytanie. Jeśli chodzi o Q1, oczywiście zakładanie jednolitego przeora nie jest tym samym, co nieprzeprowadzanie wcześniejszego, ponieważ przyjęto założenie. Jeśli nie chcesz w ogóle używać priorów, użyj maksymalnego prawdopodobieństwa lub empirycznego podejścia Bayesa.

— Tim

2

Co „chciałem usłyszeć”? Jak rozumiem, kiedy ktoś zadaje pytanie tutaj, można oczekiwać, że odpowiedź będzie dotyczyła pytania. Nie ma nic szczególnego, co „chciałbym usłyszeć” (tutaj też nie ma żadnych priorytetów), po prostu szukałem odpowiedzi na konkretne pytania, a mój komentarz dotyczył tego, aby nie zobaczyć, w jaki sposób odpowiedź odpowiedziała na moje pytania. Ale w twoim komentarzu myślę, że jest coś naprawdę istotnego: „Empiryczne podejście Bayesa”? Czy możesz wymienić / wskazać literaturę?

— Alecos Papadopoulos

3

@AlecosPapadopoulos empiryczny Bayes wybiera swoje priory na podstawie danych (tj. Oszukiwania). Możesz zacząć od Wikipedii lub artykułów autorstwa Efrona (łatwo google w Google Scholar).

— Tim

2

Załóżmy, że zacząłeś problem w poniedziałek i miałeś wcześniej, powiedzmy, normalną normę. Więc podłączasz to do swoich danych, przeprowadzasz analizę, uczysz się czegoś. We wtorek nie możesz już tego używać, ponieważ już się czegoś nauczyłeś. Tak więc naprawdę musisz podłączyć inny przedtem. Tak więc, w ścisłym Bayesian, priory są jednorazowego użytku. Możesz dosłownie uruchomić je tylko raz w oprogramowaniu. W momencie, gdy otrzymasz wyniki, przeorat wygasa, chyba że nie nauczyłeś się NIC. Więc w sensie praktycznym podejście bayesowskie jest bezużyteczne w czystej postaci, wszyscy bayesianie ciągle się oszukują

— Aksakal

3

@Aksakal Ale dlaczego nie można używać we wtorek, jako mojego nowego przeora, a posteriori, którą uzyskałem w poniedziałek? Jak to mówię, jest to całkowicie poprawna procedura sekwencyjna. Nie rozumiem więc, dlaczego piszesz „Bayesianie ciągle się oszukują”.

— Alecos Papadopoulos

3

pytanie 1 Myślę, że odpowiedź brzmi prawdopodobnie nie. Moim powodem jest to, że tak naprawdę nie mamy definicji terminu „nieinformacyjny”, z wyjątkiem mierzenia, jak daleko jest ostateczna odpowiedź od jakiegoś arbitralnie informacyjnego modelu / prawdopodobieństwa. Wiele nieinformacyjnych priorytetów jest sprawdzanych na podstawie „intuicyjnych” przykładów, w których mamy już na myśli „model / prawdopodobieństwo” i „odpowiedź”. Następnie pytamy osoby pozbawione informacji przed udzieleniem nam odpowiedzi, której oczekujemy.

Mój problem polega na tym, że mam trudności z przekonaniem, że ktoś może mieć naprawdę dobry, dobrze poinformowany model lub strukturę modelu dla swojej populacji, a jednocześnie nie ma „informacji” na temat prawdopodobnych i mało prawdopodobnych wartości parametrów dla tego modelu. Na przykład przy użyciu regresji logistycznej, patrz „DOMYŚLNIE INFORMACYJNA DOMYŚLNA DYSTRYBUCJA WCZEŚNIEJ DLA MODELI LOGISTYCZNYCH I INNYCH REJESTRACJI”

Myślę, że dyskretny jednolity przeor jest jedynym, który można zasadnie powiedzieć, że jest to przeor „pierwszy na pierwszym”. Ale napotykasz problemy z używaniem go, myśląc, że nie masz „żadnych informacji”, ale nagle reagujesz na „nieintuicyjne” odpowiedzi (wskazówka: jeśli nie podoba ci się odpowiedź bayesowska - możesz pominąć informacje z poprzedniego lub prawdopodobieństwo!). Innym problemem, na który napotykasz, jest dostosowanie dyskretyzacji do twojego problemu. Nawet o tym myśląc, musisz znać liczbę dyskretnych wartości, aby zastosować dyskretny jednolity wcześniej.

Inną właściwością, którą należy wziąć pod uwagę w przypadku swojego przeora, jest „zachowanie ogona” w stosunku do prawdopodobieństwa, z którego korzystasz.

do pytania 2

Pod względem koncepcyjnym nie widzę nic złego w określaniu dystrybucji bez użycia uprzedniego lub prawdopodobieństwa. Możesz zacząć problem od powiedzenia „mój pdf to… i chcę obliczyć… wrt ten pdf”. Następnie tworzysz ograniczenie dla wcześniejszej, wcześniejszej predykcji i prawdopodobieństwa. Metoda bayesowska ma zastosowanie, gdy masz pierwszeństwo i prawdopodobieństwo, i chcesz połączyć je w rozkład boczny.

Prawdopodobnie chodzi o wyjaśnienie, jakie są twoje prawdopodobieństwa. Następnie argument zmienia się na „czy ten pdf / pmf reprezentuje to, co mówię, że reprezentuje?” - myślę, że jest to przestrzeń, w której chcesz być. W swoim przykładzie mówisz, że pojedyncza dystrybucja odzwierciedla wszystkie dostępne informacje - nie ma „wcześniejszej”, ponieważ jest już zawarta (domyślnie) w używanej dystrybucji.

$U (0,1)$ $Bin(n,p)$ $Beta (0,0)$ $2$ $1$

w sprawie tak rażąco błędnego komentarza

Szczerze mówiąc, bardzo chciałbym zobaczyć, jak można wykorzystać dowolną liczbę obserwacji do przewidzenia obserwacji „statystycznie niezależnej”. Na przykład, jeśli powiem, wygeneruję 100 standardowych zmiennych normalnych. Daję ci 99, i daj mi najlepszą prognozę na 100. miejsce. Mówię, że nie można dokonać lepszej prognozy dla setnego niż 0. Ale to jest to samo, co można przewidzieć dla setnego, gdybym nie dał wam żadnych danych. Dlatego nie uczysz się niczego z 99 punktów danych.

Jeśli jednak powiem ci, że był to „rozkład normalny”, możesz użyć 99 punktów danych do oszacowania parametrów. Następnie dane nie są już „statystycznie niezależne”, ponieważ dowiadujemy się więcej o wspólnej strukturze, gdy obserwujemy więcej danych. Twoja najlepsza prognoza wykorzystuje teraz wszystkie 99 punktów danych

— prawdopodobieństwo prawdopodobieństwa
źródło

1

(+1) Dziękujemy za przemyślaną odpowiedź. Wyjaśnienie dotyczące „rażąco błędnego” stwierdzenia: zostało sformułowane, ponieważ „uczenie się” (i mówię o ogólnym znaczeniu tego słowa) jest znacznie szerszym pojęciem niż „przewidywanie”. Jeśli dwa zdarzenia są strukturalnie podobne, możemy nauczyć się rzeczy związanych z jednym, badając drugie, nawet jeśli mogą być statystycznie niezależne. Mówisz także o „wspólnej strukturze” w swojej odpowiedzi, to wszystko, co jest w tym wszystkim.

— Alecos Papadopoulos

@Alecos Papadopoulos - chodzi o to, że nie można się uczyć bez uzależnienia statystycznego. Biorąc mój przykład, czego można się nauczyć w scenariuszu 1. Dodatkowo wspólna struktura musi być nieznana, a nie tylko obecna.

— prawdopodobieństwo prawdopodobieństwa

1

Komentując ostatnie zdanie twojego postu, fakt, że możemy dowiedzieć się czegoś o wspólnej strukturze, jak zauważyłeś, nie powoduje, że zmienne losowe są „zależne statystycznie”. Pozostają „niezależne w prawdopodobieństwie”, co jest innym sposobem na określenie „statystycznie niezależny”, co ma matematycznie bardzo dokładne znaczenie. To, że mają one wspólne cechy (tutaj ich zakres charakteryzuje się tym samym rozkładem prawdopodobieństwa), nie czyni ich statystycznie zależnymi.

— Alecos Papadopoulos

Twoje sformułowanie „niezależne od prawdopodobieństwa” nie jest dla mnie jasne i podejrzewam, że właśnie dlatego nie zgadzam się z tym, co mówisz. Jeśli to zostanie zastąpione przez „warunkowo niezależne” lub „wymienne”, to co mówisz, ma sens. Nadal czekam na coś, czego można nauczyć się od 99 iid standardowych normalnych pojazdów RV, które pomagają w setnych (nie muszą dotyczyć prognozowania).

— probabilityislogic

1

@probabilisticlogic „Niezależny w prawdopodobieństwie” jest wyrażeniem, które zwykle można znaleźć w starszych pracach i oznacza, co oznacza niezależność statystyczna wyrażona przez funkcje dystrybucji. 99 pojazdów RV pozwoli mi poznać wszystkie właściwości, cechy itp. Setnego, momentów, kwantyli, jak to nazywacie.

— Alecos Papadopoulos

3

To tylko krótka uwaga jako dodatek do innych doskonałych odpowiedzi. Często, a przynajmniej czasami, nieco arbitralne (lub konwencjonalne) jest to, która część informacji wprowadzana do analizy statystycznej nazywa się danymi, a która część nazywa się wcześniej . Lub, bardziej ogólnie, możemy powiedzieć, że informacje w analizie statystycznej pochodzą z trzech źródeł: modelu , danych i wcześniejszego . W niektórych przypadkach, takich jak modele liniowe lub GLM, separacja jest dość wyraźna, przynajmniej konwencjonalnie.

Ponownie wykorzystam przykład z oszacowania maksymalnego prawdopodobieństwa (MLE) dla laika, aby zilustrować mój punkt widzenia. Powiedzmy, że pacjent wchodzi do gabinetu lekarskiego, a niektóre problemy medyczne okazują się trudne do zdiagnozowania. Ten lekarz nie widział wcześniej czegoś całkiem podobnego. Następnie, rozmawiając z pacjentem, pojawia się kilka nowych informacji: ten pacjent niedawno odwiedził tropikalną Afrykę. Następnie lekarzowi wydaje się, że może to być malaria lub inna choroba tropikalna. Pamiętaj jednak, że ta informacja jest dla nas wyraźnie danymi, ale przynajmniej w wielu modelach statystycznych, które mogłyby zostać zastosowane, przejdzie ono do analizy w postaci wcześniejszej dystrybucji, wcześniejszej dystrybucji dającej większe prawdopodobieństwo niektórych chorób tropikalnych. Ale moglibyśmy stworzyć (większy), bardziej kompletny model, w którym informacje te wprowadzane są jako dane. Tak więc przynajmniej częściowo dane dotyczące rozróżnienia / uprzedniej są konwencjonalne.

Jesteśmy przyzwyczajeni do tej konwencji i akceptujemy ją, ponieważ kładziemy nacisk na niektóre klasy modeli konwencjonalnych. Ale w większym schemacie rzeczy, poza światem stylizowanych modeli statystycznych, sytuacja jest mniej jasna.

— kjetil b halvorsen
źródło