Czy istnieje jakakolwiek * matematyczna * podstawa dla debaty bayesowskiej i częstej?


67

W Wikipedii jest napisane, że:

matematyka [prawdopodobieństwa] jest w dużej mierze niezależna od jakiejkolwiek interpretacji prawdopodobieństwa.

Pytanie: Zatem jeśli chcemy być matematycznie poprawni, czy nie powinniśmy nie dopuścić do jakiejkolwiek interpretacji prawdopodobieństwa? Tj. Czy zarówno bayesowski, jak i częstościowy są matematycznie niepoprawne?

Nie lubię filozofii, ale lubię matematykę i chcę pracować wyłącznie w ramach aksjomatów Kołmogorowa. Jeśli to jest mój cel, czy powinno wynikać z tego, co na Wikipedii mówi, że powinienem odrzucić zarówno bayesianizm, jak i częstotliwość? Jeśli pojęcia są czysto filozoficzne, a nie matematyczne, to dlaczego pojawiają się w statystykach?

Tło / Kontekst:
Ten post na blogu nie mówi dokładnie tego samego, ale dowodzi, że próba sklasyfikowania technik jako „bayesowskich” lub „częstych” przynosi efekt przeciwny do zamierzonego z pragmatycznego punktu widzenia.

Jeśli cytat z Wikipedii jest prawdziwy, to wydaje się, że z filozoficznego punktu widzenia próba sklasyfikowania metod statystycznych również przynosi efekt przeciwny do zamierzonego - jeśli metoda jest matematycznie poprawna, wówczas można zastosować tę metodę, gdy założenia matematyki leżącej u jej podstaw wstrzymaj, w przeciwnym razie, jeśli nie jest to poprawne matematycznie lub jeśli założenia się nie utrzymują, użycie go jest nieprawidłowe.

Z drugiej strony wydaje się, że wiele osób utożsamia „wnioskowanie bayesowskie” z teorią prawdopodobieństwa (tj. Aksjomatami Kołmogorowa), chociaż nie jestem do końca pewien, dlaczego. Niektóre przykłady to rozprawa Jaynesa o wnioskowaniu Bayesa zatytułowana „Prawdopodobieństwo”, a także książka Jamesa Stone'a „Reguła Bayesa”. Jeśli więc przyjmuję te twierdzenia za wartość nominalną, oznacza to, że wolę Bayesianizm.

Jednak książka Caselli i Bergera wydaje się być częsta, ponieważ omawia estymatory maksymalnego prawdopodobieństwa, ale ignoruje maksymalne estymatory a posteriori, ale wydaje się również, że wszystko w nim jest matematycznie poprawne.

Czy zatem nie wynika z tego, że jedyną poprawną matematycznie wersją statystyki jest ta, która nie jest całkowicie agnostyczna w odniesieniu do bayesianizmu i częstości? Jeśli metody z obu klasyfikacjami są poprawne matematycznie, to czy nie jest niewłaściwą praktyką preferowanie niektórych spośród innych, ponieważ oznaczałoby to nadanie priorytetu niejasnej, źle zdefiniowanej filozofii przed precyzyjną, dobrze zdefiniowaną matematyką?

Podsumowanie: Krótko mówiąc, nie rozumiem, jakie są podstawy matematyczne dla debaty bayesowskiej i częstej, a jeśli nie ma matematycznych podstaw dla debaty (jak twierdzi Wikipedia), nie rozumiem, dlaczego jest ona tolerowana wszystko w dyskursie akademickim.


5
Być może również interesujące: czy Bayesianie akceptują aksjomaty Kołmogorowa? .
Scortchi

1
@PeterMortensen Widziałem już to pytanie, zanim zadałem to pytanie; jednakże odpowiedź na to pytanie nie dotyczyła mojego pierwotnego źródła nieporozumień, a mianowicie jakiej różnicy matematycznej , jeśli istnieje między nimi; pamiętajcie, że nie interesują mnie różnice filozoficzne, ponieważ nie powinny one mieć żadnego wpływu na przestrzeń możliwych modeli.
Chill2Macht

1
Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .
whuber

4
W debacie bayeseańskiej chodzi nie tyle o prawdopodobieństwo, ile o interpretację statystyczną i ważność jej zastosowania.
RBarryYoung

2
@ Mehrdad To pytanie nie dotyczy różnych podejść dających różne odpowiedzi, chodzi o możliwość sformalizowania, za pomocą matematycznych aksjomatów, różnicy między bayesianizmem a częstością. Odpowiedzi na powiązane pytanie nie wyjaśniają aksjomatycznych różnic między tymi dwoma podejściami.
Chill2Macht

Odpowiedzi:


14

Przestrzenie prawdopodobieństwa i aksjomaty Kołmogorowa

Przestrzeń prawdopodobieństwa jest z definicji potrójnym gdzie jest zbiorem wyników, jest -algebra na podzbiory i to miara prawdopodobieństwa, która spełnia aksjomaty Kołmogorowa, tzn. jest funkcją od do tak że a dla rozłącznych w utrzymuje, że ( Ω , F , P ) Ω F σ Ω P P F [ 0 , 1 ] P ( Ω ) = 1 E 1 , E 2 , F P ( j = 1 E j ) = j = 1 P ( E j )P(Ω,F,P)ΩFσΩPPF[0,1]P(Ω)=1E1,E2,FP(j=1Ej)=j=1P(Ej).

W takiej przestrzeni prawdopodobieństwa można dla dwóch zdarzeń w zdefiniować prawdopodobieństwo warunkowe jakoF P ( E 1 | E 2 ) d e f = P ( E 1E 2 )E1,E2FP(E1|E2)=defP(E1E2)P(E2)

Uwaga:

  1. to „prawdopodobieństwo warunkowe” jest zdefiniowane tylko wtedy, gdy jest zdefiniowane w , więc potrzebujemy przestrzeni prawdopodobieństwa, aby móc zdefiniować prawdopodobieństwa warunkowe.F.PF
  2. Przestrzeń prawdopodobieństwa określa się w bardzo ogólnych ( zestaw , -algebra i środek prawdopodobieństwo ), przy czym jedynym warunkiem jest to, że pewne właściwości powinny zostać zrealizowane, ale oprócz tego te trzy elementy mogą być „czymkolwiek”.σ F PΩ σFP

Więcej szczegółów można znaleźć w tym linku

Reguła Bayesa obowiązuje w dowolnej (prawidłowej) przestrzeni prawdopodobieństwa

Z definicji prawdopodobieństwa warunkowego wynika również, że . Z dwóch ostatnich równań odnajdujemy zasadę Bayesa. Tak więc reguła Bayesa (z definicji prawdopodobieństwa warunkowego) zachowuje się w dowolnej przestrzeni prawdopodobieństwa (aby to pokazać, wyprowadza i z każdego równania i równania je (są równe, ponieważ przecięcie jest przemienne)). P(E1E2)P(E2E1)P(E2|E1)=P(E2E1)P(E1)P(E1E2)P(E2E1)

Ponieważ reguła Bayesa jest podstawą wnioskowania bayesowskiego, można przeprowadzić analizę bayesowską w dowolnej prawidłowej (tj. Spełniającej wszystkie warunki, np. Aksjomaty Kołmogorowa).

Częstotliwościowa definicja prawdopodobieństwa jest „przypadkiem szczególnym”

Powyższe dotyczy „w ogóle”, tzn. Nie mamy na myśli konkretnego , , , o ile jest -algebra na podzbiorach a spełnia aksjomaty Kołmogorowa.F P F σ Ω PΩFPFσΩP

Pokażemy teraz, że definicja „ „ częstego ” spełnia aksjomaty Kołomogorowa. W takim przypadku prawdopodobieństwa „częstych” są jedynie szczególnym przypadkiem ogólnego i abstrakcyjnego prawdopodobieństwa Kołmogorowa. P

Weźmy przykład i rzuć kostką. Zatem zestaw wszystkich możliwych wyników to . Potrzebujemy również -algebra na tym zestawie i bierzemy zestaw wszystkich podzbiorów , tj. .Ω = { 1 , 2 , 3 , 4 , 5 , 6 } σ Ω F Ω F = 2 ΩΩΩ={1,2,3,4,5,6}σΩFΩF=2Ω

Nadal musimy często określać miarę prawdopodobieństwa . Dlatego definiujemy jako gdzie jest liczbą uzyskanych w rzutach kości. Podobnie jest w przypadku , ... .PP({1}) n11nP({2})P({6})P({1})=deflimn+n1nn11nP({2})P({6})

W ten sposób zdefiniowano dla wszystkich singletonów w . Dla każdego innego zestawu w , np. , definiujemy w częsty sposób, tj. , ale według liniowości „lim” jest to równe , co oznacza, że ​​trzymają się aksjomaty Kołmogorowa.PFF{1,2}P({1,2})P({1,2})=deflimn+n1+n2nP({1})+P({2})

Tak więc częstokształtna definicja prawdopodobieństwa jest tylko szczególnym przypadkiem ogólnej i abstrakcyjnej definicji miary prawdopodobieństwa Kołomogorowa.

Zauważ, że istnieją inne sposoby zdefiniowania miary prawdopodobieństwa, która spełnia aksjomaty Kołmogorowa, więc definicja częstokroć nie jest jedyną możliwą.

Wniosek

Prawdopodobieństwo w systemie aksjomatycznym Kołmogorowa jest „abstrakcyjne”, nie ma rzeczywistego znaczenia, musi jedynie spełniać warunki zwane „aksjomatami”. Używając tylko tych aksjomatów Kołmogorow był w stanie wyprowadzić bardzo bogaty zestaw twierdzeń.

Częstotliwościowa definicja prawdopodobieństwa wypełnia aksjomaty, a zatem zastępując abstrakcyjne „bez znaczenia” prawdopodobieństwem zdefiniowanym w częsty sposób, wszystkie te twierdzenia są ważne, ponieważ „prawdopodobieństwo częstości” przypadek abstrakcyjnego prawdopodobieństwa Kołmogorowa (tzn. spełnia aksjomaty).P

Jedną z właściwości, które można uzyskać w ogólnych ramach Kołmogorowa, jest reguła Bayesa. Jak ma to miejsce w ogólnych i abstrakcyjnych ramach, będzie również utrzymywał (cfr supra) w konkretnym przypadku, że prawdopodobieństwa są definiowane w sposób częsty (ponieważ definicja częstościowa spełnia aksjomaty i te aksjomaty były jedyną rzeczą, która jest potrzebna do wyprowadzić wszystkie twierdzenia). Można więc przeprowadzić analizę bayesowską z częstokroć definiującą prawdopodobieństwem.

Definiowanie w częsty sposób nie jest jedyną możliwością, istnieją inne sposoby zdefiniowania go tak, aby spełniał abstrakcyjne aksjomaty Kołmogorowa. Zasada Bayesa obowiązuje również w tych „szczególnych przypadkach”. Tak też można zrobić analizę Bayesa z nieprzestrzegania -frequentist definicji prawdopodobieństwa.P

EDYCJA 23.08.2016

Reakcja @mpiktas na Twój komentarz:

Jak powiedziałem, zbiory i miara prawdopodobieństwa nie mają szczególnego znaczenia w systemie aksjomatycznym, są abstrakcyjne. Ω,FP

Aby zastosować tę teorię, musisz podać dalsze definicje (więc to, co mówisz w swoim komentarzu „nie ma potrzeby dalszego pomieszania z niektórymi dziwacznymi definicjami” jest błędne, potrzebujesz dodatkowych definicji ).

Zastosujmy to do przypadku rzutu uczciwą monetą. Zbiór w teorii Kołmogorowa nie ma szczególnego znaczenia, musi po prostu być „zbiorem”. Musimy więc określić, czym jest ten zestaw w przypadku uczciwej monety, tzn. Musimy zdefiniować zestaw . Jeśli reprezentujemy głowę jako H, a ogon jako T, to zestaw jest z definicji .ΩΩΩ Ω=def{H,T}

Musimy także zdefiniować zdarzenia, tj. -algebra . Definiujemy jako . Łatwo jest zweryfikować, że to -algebra.σFF=def{,{H},{T},{H,T}}Fσ

Następnie musimy zdefiniować dla każdego zdarzenia w jego miarę. Musimy więc zdefiniować mapę z w . Zdefiniuję to w sposób częsty, dla uczciwej monety, jeśli rzuciłem ją ogromną liczbę razy, wówczas ułamek głów wyniesie 0,5, więc zdefiniuję . Podobnie definiuję , i . Zauważ, że jest mapą z w i że spełnia aksjomaty Kołmogorowa.EFF[0,1]P({H})=def0.5P({T})=def0.5P({H,T})=def1P()=def0PF[0,1]

Odwołanie do częstokształtnej definicji prawdopodobieństwa znajduje się w tym łączu (na końcu sekcji „definicja”) i w tym łączu .


10
Być może należy gdzieś zauważyć, że toczy się częsta / bayesowska debata na temat interpretacji prawdopodobieństwa oraz częsta / bayesowska debata na temat wnioskowania statystycznego. Są to dwie różne (choć powiązane) debaty. Ta odpowiedź mówi wyłącznie o pierwszej, co jest w porządku (i chyba to, co @William był tutaj zainteresowany, ponieważ zdecydował się przyjąć tę odpowiedź), ale większość innych odpowiedzi mówi głównie o drugiej. To tylko notatka dla przyszłych czytelników, ale także notatka dla Williama.
ameba

2
Głosuję za odrzuceniem, ponieważ nie ma odniesienia do definicji „prawdopodobieństwa częstokroć częstości”, a bez niej stanowisko nie ma sensu. Na przykład podana definicja nie jest nawet matematycznie poprawna, ponieważ definicja zależy od limitu rzutów kostką. Obiekty matematyczne są abstrakcyjne i nie zależą od obiektów fizycznych. Ponadto, aby udowodnić, że istnieje limit, musisz zbudować przestrzeń prawdopodobieństwa, w której zdefiniowana jest zmienna losowa , a następnie udowodnić, że jest zbieżna, dla której potrzebujesz teorii miary i ...n n 1 / nP({1})nn1/n
mpiktas

2
definicja prawdopodobieństwa. Więc nawet jeśli zezwalamy, na przykład na definicję, jest ona okrągła, tzn. Aby sprawdzić, czy obiekt spełnia definicję, musisz mieć zdefiniowany obiekt. Bardzo chciałbym uzyskać odniesienie do podręcznika, który używa takiej definicji i próbuje jej użyć do uzyskania wszystkich zwykłych wyników w statystykach.
mpiktas

5
Ten długi i szczegółowy artykuł w Stanford Encyclopedia of Philosophy on Probability Interpretations zawiera długą i szczegółową sekcję dotyczącą częstości i może być lepszym odniesieniem niż link do Wikipedii (Encyklopedia Stanford jest dość autorytatywna, w przeciwieństwie do Wikipedii). Wyjaśnia, że ​​to, czy definicja częstokroć ma w ogóle sens, a nawet to, co dokładnie stanowi definicję częstokroć, jest kwestią trwającej 150 lat debaty, którą ty i @mpiktas wydają się odgrywać tutaj w sekcji komentarzy.
ameba

2
@amoeba: Szczególnie podoba mi się przypomnienie w twoim linku, że możemy interpretować „prawdopodobieństwo” na wiele sposobów, nie mając nic wspólnego z pojęciem, jak zwykle rozumie się - np. znormalizowaną długość - i nadal zachowujemy spójność z aksjomatami Kołmogorowa.
Scortchi

66

Statystyki to nie matematyka

Po pierwsze, kradnę słowa @ whubera z komentarza w Stats to nie matematyka? (stosowane w innym kontekście, więc kradnę słowa, nie cytuję):

Gdyby zastąpić „statystyki” słowami „chemia”, „ekonomia”, „inżynieria” lub jakakolwiek inna dziedzina, w której stosuje się matematykę (np. Ekonomia domowa), wydaje się, że żaden argument nie zmieniłby się.

Wszystkie te pola mogą istnieć i mieć pytania, których nie można rozwiązać tylko poprzez sprawdzenie, które twierdzenia są poprawne. Chociaż niektóre odpowiedzi w Stats to nie matematyka? nie zgadzam się, myślę, że jasne jest, że statystyka nie jest (czystą) matematyką. Jeśli chcesz zrobić teorię prawdopodobieństwa, gałąź (czystej) matematyki, możesz rzeczywiście zignorować wszystkie debaty, o które pytasz. Jeśli chcesz zastosować teorię prawdopodobieństwa do modelowania niektórych pytań w świecie rzeczywistym, potrzebujesz czegoś więcej, niż tylko aksjomatów i twierdzeń ram matematycznych. Pozostała część odpowiedzi rozmyśla o tym punkcie.

Twierdzenie „jeśli chcemy być matematycznie poprawni, nie powinniśmy zaprzeczać jakiejkolwiek interpretacji prawdopodobieństwa” również wydaje się nieuzasadnione. Umieszczenie interpretacji na ramie matematycznej nie powoduje, że matematyka jest niepoprawna (o ile interpretacja nie jest twierdzeniem w ramach matematycznych).

Debata nie dotyczy (głównie) aksjomatów

Chociaż istnieją alternatywne aksjatyzacje *, debata (?) Nie dotyczy kwestionowania aksjomatów Kołmogorowa. Ignorując niektóre subtelności ze zdarzeniami warunkowania zerowej miary, prowadzącymi do regularnego prawdopodobieństwa warunkowego itp., O których nie wiem wystarczająco, aksjomaty Kołmogorowa i prawdopodobieństwo warunkowe implikują zasadę Bayesa, o której nikt nie kwestionuje. Jeśli jednak nie jest nawet zmienną losową w twoim modelu (model w sensie układu matematycznego składającego się z przestrzeni prawdopodobieństwa lub ich rodziny, zmiennych losowych itp.), Oczywiście nie jest możliwe obliczenie warunkowego rozkład . Nikt też nie kwestionuje, że właściwości częstotliwości, jeśli są poprawnie obliczone, są konsekwencjami modelu. Na przykład rozkłady warunkoweP ( X Y ) p ( y θ ) p ( y ; θ ) p ( y θ ) = p ( y ; θ ) θ θXP(XY)p(yθ)w modelu bayesowskim zdefiniuj indeksowaną rodzinę rozkładów prawdopodobieństwa , po prostu pozwalając i jeśli niektóre wyniki zachowają się dla wszystkich w tym ostatnim, posiadają one dla wszystkich w byłej, zbyt.p(y;θ)p(yθ)=p(y;θ)θθ

Debata dotyczy sposobu zastosowania matematyki

Debaty (jakkolwiek istnieją **) dotyczą zamiast tego, jak zdecydować, jaki rodzaj modelu prawdopodobieństwa należy skonfigurować dla (rzeczywistego, niematematycznego) problemu i jakie implikacje modelu są istotne dla rysowania (realne -life) wnioski. Ale pytania te istniałyby, nawet gdyby wszyscy statystycy się zgodzili. Cytując z posta na blogu, do którego linkujesz [1], chcemy odpowiedzieć na pytania takie jak

Jak zaprojektować ruletkę, aby moje kasyno zarabiało $? Czy ten nawóz zwiększa plony? Czy streptomycyna leczy gruźlicę płuc? Czy palenie powoduje raka? Jaki film podobałby się temu użytkownikowi? Który gracz baseballu powinien zawrzeć umowę z Red Sox? Czy ten pacjent powinien otrzymać chemioterapię?

Aksjomaty teorii prawdopodobieństwa nawet nie zawierają definicji baseballu, więc jest oczywiste, że „Red Sox powinien zawrzeć kontrakt z baseballistą X” nie jest twierdzeniem w teorii prawdopodobieństwa.

Uwaga na temat matematycznych uzasadnień podejścia bayesowskiego

Istnieją „matematyczne uzasadnienia” dla uznania wszystkich niewiadomych za probabilistyczne, takie jak twierdzenie Coxa, do którego odnosi się Jaynes (chociaż słyszę, że ma problemy matematyczne, które mogły zostać naprawione, nie wiem, patrz [2] i odniesienia w nim) lub (subiektywne bayesowskie) podejście Savage'a (słyszałem o tym w [3], ale nigdy nie czytałem książki), co dowodzi, że przy pewnych założeniach racjonalny decydent będzie miał rozkład prawdopodobieństwa między stanami świata i wybierz jego działanie w oparciu o maksymalizację oczekiwanej wartości funkcji użyteczności. Jednak tego, czy kierownik Red Sox powinien zaakceptować założenia, czy też powinniśmy zaakceptować teorię, że palenie powoduje raka, nie można wywnioskować z żadnych ram matematycznych,

Przypisy

* Nie studiowałem tego, ale słyszałem, że de Finetti ma podejście, w którym prawdopodobieństwa warunkowe są prymitywami, a nie uzyskiwane z (bezwarunkowej) miary przez warunkowanie. [4] wspomina o debacie pomiędzy (Bayesianami) José Bernardo, Dennisem Lindleyem i Bruno de Finetti w przytulnej francuskiej restauracji na temat tego, czy potrzebna jest czułość .σ

** jak wspomniano w poście na blogu, do którego linkujesz [1], może nie być wyraźnej debaty z każdym statystykiem należącym do jednego zespołu i gardzącym drugim zespołem. Słyszałem, jak mówiono, że wszyscy jesteśmy dziś pragmatykami i bezużyteczna debata dobiegła końca. Jednak z mojego doświadczenia wynika, że ​​różnice te występują na przykład w tym, czy pierwszym podejściem kogoś jest modelowanie wszystkich niewiadomych jako zmiennych losowych, czy nie, oraz to, jak zainteresowana jest gwarancją częstotliwości.

Bibliografia

[1] Simply Statistics, blog statystyczny Rafa Irizarry, Rogera Penga i Jeffa Leka: „Deklaruję debatę Bayesian vs. Frequentist dla badaczy danych”, 13 października 2014 r., Http://simplystatistics.org/2014/10 / 13 / as-an-Applied-Statistics-I-Find-The-Frequists-vs.-Bayesians-Debut-Całkowicie bez znaczenia /

[2] Dupré, MJ i Tipler, FJ (2009). Nowe aksjomaty dla rygorystycznego prawdopodobieństwa Bayesa. Analiza Bayesowska, 4 (3), 599-606. http://projecteuclid.org/download/pdf_1/euclid.ba/1340369856

[3] Savage, LJ (1972). Podstawy statystyki. Courier Corporation.

[4] Bernardo, JM The Valencia Story - Niektóre szczegóły dotyczące powstania i rozwoju międzynarodowych spotkań w Walencji na temat statystyki bayesowskiej. http://www.uv.es/bernardo/ValenciaStory.pdf


13
+1, w szczególności w przypadku „Aksjomaty teorii prawdopodobieństwa nawet nie zawierają definicji baseballu”.
ameba

5
@William: Nie uważa się, że parametr jest stałą zmienną losową - nie można tego wywnioskować ani zaobserwować. Pytanie brzmi, czy reprezentować epistemiczną niepewność dotyczącą prawdziwej wartości parametru przy użyciu rozkładu prawdopodobieństwa. (Analiza częstościowa reprezentuje jedynie proces generowania danych aleatoryjnych z wykorzystaniem rozkładu prawdopodobieństwa.)
Scortchi

4
@William klasyczna Monty Hall nie ma niczego, co można by interpretować jako parametr lub jako dane, jest to problem prawdopodobieństwa. Podejście bayesowskie / częste pojawi się w grze tylko wtedy, gdy chcesz oszacować, powiedzmy, parametr opisanego wariantu opisanego tutaj en.wikipedia.org/wiki/Monty_Hall_problem#Variants poprzez obejrzenie wielu odcinków pokazu. Ja, jako Bayesjanin, prawdopodobnie umieściłem np. Wersję beta przed i zacznę aktualizację. To, czy zadziałałoby to dobrze w symulacji komputerowej, może silnie zależeć od tego, jak symulacja komputerowa wybiera . q qqqq
Juho Kokkala,

8
Zapobiegawczo zauważam, że nie jestem zainteresowany kontynuowaniem żadnej debaty na ten temat w sekcji komentarzy, ponieważ to (ani ta strona w ogóle) nie jest miejscem debat.
Juho Kokkala,

2
Całkowicie się zgadzam, że „statystyki nie są matematyką”. Wigner napisał esej zatytułowany „Nieuzasadniona skuteczność matematyki w fizyce”, który dowodził, że skoro nie ma nieodłącznego związku między abstrakcyjnym światem matematyki a konkretnym światem fizyki. Zaskakujące (i wspaniałe) było to, że matematyka działała tak dobrze w opisywaniu fizyki. Wydaje mi się, że to samo dotyczy statystyki. Z niecierpliwością czekam na kogoś, kto napisze „Nieuzasadniona skuteczność matematyki w statystyce”. Osobiście uważam za niesamowite, że matematyka abstrakcyjna działa tak dobrze w opisywaniu zjawisk statystycznych.
aginensky

32

Podstawa matematyczna debaty bayesowskiej i częstej jest bardzo prosta. W statystyce bayesowskiej nieznany parametr jest traktowany jako zmienna losowa; w statystykach częstych jest to traktowane jako element stały. Ponieważ zmienna losowa jest znacznie bardziej skomplikowanym obiektem matematycznym niż prostym elementem zbioru, różnica matematyczna jest dość oczywista.

Okazuje się jednak, że rzeczywiste wyniki pod względem modeli mogą być zaskakująco podobne. Weźmy na przykład regresję liniową. Bayesowska regresja liniowa z nieinformacyjnymi priorytetami prowadzi do rozkładu oszacowania parametru regresji, którego średnia jest równa oszacowaniu parametru częstościowej regresji liniowej, co jest rozwiązaniem problemu najmniejszych kwadratów, który nie jest nawet problemem z teorii prawdopodobieństwa . Niemniej jednak matematyka zastosowana do uzyskania podobnego rozwiązania jest zupełnie inna, z podanego powyżej powodu.

Oczywiście ze względu na różnicę w traktowaniu nieznanych parametrów właściwości matematycznych (zmienna losowa vs element zestawu) zarówno statystyki bayesowskie, jak i częste trafiły w przypadki, w których mogłoby się wydawać, że korzystniejsze jest stosowanie podejścia konkurencyjnego. Przedziały ufności są doskonałym przykładem. Kolejnym jest fakt, że nie trzeba polegać na MCMC, aby uzyskać proste oszacowanie. Zazwyczaj są to jednak kwestie gustu, a nie matematyki.


5
Chociaż stała jest szczególnym przypadkiem zmiennej losowej, wahałbym się stwierdzić, że bayesianizm jest bardziej ogólny. Nie uzyskałbyś częstych wyników od wyników bayesowskich, po prostu zwijając zmienną losową do stałej. Różnica jest głębsza. Kiedy założymy, że parametr jest nieznaną stałą, punktem centralnym badania staje się oszacowanie, które jest zmienną losową (ponieważ jest to mierzalna funkcja próbki) i jak blisko jest do prawdziwej wartości parametru, lub w jaki sposób uzyskać oszacowanie, aby było bliskie prawdziwemu oszacowaniu.
mpiktas,

6
Ponieważ oszacowanie jest zmienną losową, nie można go badać, ignorując teorię miar, dlatego stwierdzenie, że wielu statystyk wykazuje zadziwiającą ilość ignorancji i lekceważy teorię miar, jest dość zaskakujące. Czy czytałeś Statystyki asymetryczne autorstwa A. van der Vaarta? Uważam tę książkę za bardzo dobry przegląd statystyk częstokroć i cechy teorii miary dość wyraźnie tam widoczne.
mpiktas,

3
Z drugiej strony statystyki bayesowskie niemal natychmiast wyprowadzają rozkład parametru, a następnie pojawia się pytanie, jak go obliczyć (wiele badań nad różnymi algorytmami próbkowania, Metropolis-Hastings itp.) I jakie znaczenie mają priorytety. Nie znam się tak dobrze na badaniach statystyki bayesowskiej, więc moje uogólnienie może być nieco opóźnione. Przechodząc do osobistych preferencji, nie biorąc pod uwagę faktu, że byłem mniej więcej szkolony jako częsty, nie podoba mi się, że statystyki bayesowskie wykorzystują dość ograniczony podzbiór dostępnych dystrybucji ...
mpiktas

3
Zawsze zaczyna się od rozkładu normalnego i jego koniugatów oraz od tego, jak daleko cię to prowadzi. Ponieważ prawie wszystkie dane, które przetwarzam, nie są zwykle dystrybuowane, od razu jestem podejrzliwy i wolę pracować z metodami agnostycznymi. Jest to jednak osobista preferencja i stwierdzam, że w pracy stosowanej nie znalazłem jeszcze problemu, w przypadku którego podejście częstokroć zawiódłoby tak spektakularnie, że musiałbym przejść na podejście bayesowskie.
mpiktas,

4
„Zawsze zaczyna się od rozkładu normalnego i jego koniugatów oraz od tego, jak daleko cię to prowadzi ...” - dlatego używa się metod Monte Carlo do próbkowania z rozkładu parametrów tylnych; działają one również w przypadku ogólnych dystrybucji (oprogramowanie BUGS i jego warianty).
John Donn,

25

Nie lubię filozofii, ale lubię matematykę i chcę pracować wyłącznie w ramach aksjomatów Kołmogorowa.

Jak dokładnie zastosowałbyś aksjomaty Kołmogorowa samodzielnie, bez żadnej interpretacji? Jak to interpretować prawdopodobieństwo? Co powiedziałbyś komuś, kto zapytał: „Co oznacza twoje oszacowanie prawdopodobieństwa ?” 0.5Czy powiedziałbyś, że twój wynik to liczba0.5, co jest poprawne, ponieważ jest zgodne z aksjomatami? Bez żadnej interpretacji nie można powiedzieć, że sugeruje to, jak często spodziewalibyśmy się rezultatu, gdybyśmy powtórzyli nasz eksperyment. Nie możesz też powiedzieć, że ta liczba mówi ci, jak bardzo jesteś pewien szansy na wydarzenie. Nie możesz też odpowiedzieć, że to mówi ci, jak prawdopodobne jest to wydarzenie. Jak interpretowałbyś wartość oczekiwaną - ponieważ niektóre liczby pomnożone przez inne liczby i zsumowane razem są ważne, ponieważ są zgodne z aksjomatami i kilkoma innymi twierdzeniami?

Jeśli chcesz zastosować matematykę do prawdziwego świata, musisz ją zinterpretować. Same liczby bez interpretacji to ... liczby. Ludzie nie obliczają wartości oczekiwanych w celu oszacowania wartości oczekiwanych, ale aby dowiedzieć się czegoś o rzeczywistości.

Co więcej, prawdopodobieństwo jest abstrakcyjne, podczas gdy my stosujemy statystyki (i prawdopodobieństwo jako takie) do rzeczywistych wydarzeń. Weźmy najbardziej podstawowy przykład: uczciwą monetę. W interpretacji częstokrzyskiej, jeśli rzuciłeś taką monetę wiele razy, spodziewałbyś się takiej samej liczby głów i ogonów. Jednak w prawdziwym eksperymencie prawie nigdy by się to nie zdarzyło. Zatem prawdopodobieństwo nie ma nic wspólnego z żadną konkretną monetą wyrzuconą określoną liczbę razy.0.5

Prawdopodobieństwo nie istnieje

- Bruno de Finetti


3
„Jeśli rzuciłeś taką monetę wiele razy, spodziewałbyś się takiej samej liczby głów i ogonów” - to błędne rozumienie prawa wielkich liczb. Patrz rozdział III tomu 1 Fellera Wprowadzenie do teorii prawdopodobieństwa i zastosowań . Na przykład na str. 67 „W populacji zwykłych monet większość jest z konieczności niedostosowana”.
Chill2Macht

1
@William, więc co dokładnie odpowiedziałbyś na pytanie „co oznacza p = 0,5?” gdzie p jest oszacowaniem prawdopodobieństwa w eksperymencie wyrzucania monet ...?
Tim

1
Cytujesz także Fellera, który wymienia „większość” - większość z tego, co dokładnie, jeśli nie robisz częstych interpretacji prawdopodobieństwa…?
Tim

7
Upraszczanie rzeczy: w ujęciu częstokroć prawdopodobieństwo związane jest z proporcjami zdarzeń występujących między możliwymi wydarzeniami; w interpretacji bayesowskiej chodzi o to, na ile coś jest wiarygodne (patrz en.wikipedia.org/wiki/Probability#Interpretations ). Mówiąc mi o przestrzeni próbki itp. Założyłeś , że jest coś oprócz pojedynczego losowania w przyszłości - taka jest twoja interpretacja prawdopodobieństwa, ponieważ będzie tylko jedno podrzucenie, więc cały argument o przestrzeni próbki nie dotyczy to. Masz całkowitą rację w swojej interpretacji, ale jest to
Tim

5
interpretacja. Aby zastosować prawdopodobieństwo do rzeczywistych wydarzeń, musisz dokonać takich interpretacji. Jakie jest prawdopodobieństwo, że Trump wygra wybory w USA w 2016 roku? To pytanie jest niemożliwe do odpowiedzi, jeśli nie podejmiesz założeń dotyczących prawdopodobieństwa.
Tim

10

Moim zdaniem kontrast między wnioskowaniem bayesowskim a częstym jest taki, że pierwszą kwestią jest wybór zdarzenia, dla którego chcesz mieć prawdopodobieństwo. Częstokroć zakładają to, co próbujesz udowodnić (np. Hipoteza zerowa), a następnie obliczają prawdopodobieństwo zaobserwowania czegoś, co już zaobserwowałeś, przy takim założeniu. Istnieje dokładna analogia między takimi prawdopodobieństwami kolejności przepływu informacji zwrotnej a wrażliwością i swoistością w diagnozie medycznej, które spowodowały ogromne nieporozumienia i muszą być ratowane przez zasadę Bayesa, aby uzyskać prawdopodobieństwo („prawdopodobieństwa po badaniu”). Bayesianie obliczają prawdopodobieństwo zdarzenia, a absolutnych prawdopodobieństw nie da się obliczyć bez kotwicy (wcześniej). Bayesowskie prawdopodobieństwo prawdziwości stwierdzenia znacznie różni się od częstościowego prawdopodobieństwa obserwacji danych przy pewnym niepoznawalnym założeniu. Różnice są bardziej wyraźne, gdy częsty musi dostosować się do innych analiz, które zostały wykonane lub mogłyby zostać wykonane (wielokrotność; testy sekwencyjne itp.).

Dyskusja na temat podstaw matematycznych jest więc bardzo interesująca i bardzo odpowiednia. Ale trzeba dokonać fundamentalnego wyboru prawdopodobieństw do przodu i do tyłu. Dlatego to, co jest uwarunkowane, co nie jest dokładnie matematyką, jest niezwykle ważne. Bayesianie uważają, że pełne uwarunkowanie tego, co już wiesz, jest kluczowe. Częstokroć częściej uzależniają matematykę od prostoty.


9

Podzielę to na dwa osobne pytania i udzielę odpowiedzi na każde z nich.

1.) Biorąc pod uwagę różne filozoficzne poglądy na temat prawdopodobieństwa w perspektywie częstokrzyskiego i bayesowskiego, czy istnieją matematyczne reguły prawdopodobieństwa, które odnoszą się do jednej interpretacji, a nie do innej?

Nie. Reguły prawdopodobieństwa pozostają dokładnie takie same między dwiema grupami.

2.) Czy bayesianie i częste osoby używają tych samych modeli matematycznych do analizy danych?

Ogólnie rzecz biorąc, nie. Jest tak, ponieważ dwie różne interpretacje sugerują, że badacz może uzyskać wgląd z różnych źródeł. W szczególności często uważa się, że ramy Frequentist sugerują, że można wnioskować na temat interesujących parametrów tylko na podstawie zaobserwowanych danych, podczas gdy perspektywa bayesowska sugeruje, że należy również uwzględnić niezależną wiedzę ekspercką na ten temat. Różne źródła danych oznaczają, że do analizy zostaną wykorzystane różne modele matematyczne.

Należy również zauważyć, że istnieje wiele różnic między modelami stosowanymi przez dwa obozy, które są bardziej związane z tym, co zostało zrobione, niż z tym, co możebyć zrobione (tzn. wiele modeli tradycyjnie używanych przez jeden obóz może być uzasadnionych przez drugi obóz). Na przykład modele BUG (wnioskowanie bayesowskie Korzystanie z próbkowania Gibbsa, nazwa, która z wielu powodów nie jest już dokładnym opisem zestawu modeli) są tradycyjnie analizowane metodami bayesowskimi, głównie ze względu na dostępność świetnych pakietów oprogramowania do tego celu (JAG, Stan na przykład). Jednak nic nie mówi, że te modele muszą być ściśle bayesowskie. W rzeczywistości pracowałem nad projektem NIMBLE, który buduje te modele w środowisku BUG, ​​ale daje użytkownikowi znacznie więcej swobody w zakresie wnioskowania na ich temat. Podczas gdy zdecydowana większość dostarczonych przez nas narzędzi to konfigurowalne metody MCMC Bayesa, można również użyć oszacowania maksymalnego prawdopodobieństwa, tradycyjnie częstej metody, również dla tych modeli. Podobnie, priory są często uważane za to, co można zrobić z Bayesianem, czego nie można zrobić z modelami Frequentist. Jednak oszacowanie karne może zapewnić te same modele przy użyciu oszacowań parametrów regularyzacji (chociaż struktura Bayesa zapewnia łatwiejszy sposób uzasadnienia i wyboru parametrów regularyzacji, podczas gdy częstokroć pozostawia, w najlepszym przypadku, wiele danych ”, wybraliśmy te parametry regularyzacji, ponieważ w dużej liczbie próbek poddanych walidacji krzyżowej obniżyły szacowany błąd braku próby „... na lepsze lub gorsze).


1
W pewnym sensie sprzeciwiam się temu cytatowi: „W szczególności często uważa się, że ramy Frequentist sugerują, że można wnioskować na temat interesujących parametrów tylko na podstawie zaobserwowanych danych, podczas gdy perspektywa bayesowska sugeruje, że należy również uwzględnić niezależną wiedzę ekspercką o temacie ”. Przede wszystkim z powodu implikacji, że osoby często odwiedzające z jakiegokolwiek powodu nie są zainteresowane niezależną wiedzą ekspercką na ten temat. Różnica między częstymi a Bayesianami nie polega na tym, że ci pierwsi uparcie odmawiają korzystania z wcześniejszej wiedzy lub kontekstu ... (1/2)
Ryan Simmons

1
... ale raczej te dwie szkoły myślenia wykorzystują tę wcześniejszą wiedzę / kontekst na różne sposoby. Można argumentować, że perspektywa bayesowska przyjmuje bardziej zasadnicze podejście do włączenia tej wcześniejszej wiedzy bezpośrednio do modelu (choć argumentowałbym, że powszechne stosowanie nieinformacyjnych priorów raczej osłabia ten argument). Ale nie sądzę, że to sprawiedliwe, aby scharakteryzować to jako problem osób często NIE korzystających z tych informacji. (2/2)
Ryan Simmons,

1
@RyanSimmons: racja, dlatego powiedziałem: „często uważa się, że sugeruje ...”. Na przykład, jeśli badacz zauważy, że uregulowanie oszacowań parametrów wokół opinii eksperta prowadzi do lepszych prognoz na dłuższą metę, nie ma problemu z włączeniem tego do schematu częstych („na podstawie miar częstych, ten zwiększony estymator ma lepsze długoterminowe charakterystyki operacyjne niż estymator danych ”). Ale to nie jest tak proste, jak w ramach Bayesa.
Cliff AB

1
Słusznie! Zgadzam się.
Ryan Simmons,

5

Bayesianie i częste osoby uważają, że prawdopodobieństwa reprezentują różne rzeczy. Częstokroć uważają, że są one związane z częstotliwościami i mają sens tylko w kontekstach, w których częstotliwości są możliwe. Bayesianie postrzegają je jako sposoby reprezentowania niepewności. Ponieważ każdy fakt może być niepewny, możesz mówić o prawdopodobieństwie czegokolwiek.

Konsekwencją matematyczną jest to, że osoby często uczące się uważają, że podstawowe równania prawdopodobieństwa mają zastosowanie tylko czasami, a Bayesianie uważają, że zawsze mają zastosowanie. Uważają więc te same równania za poprawne, ale różnią się tym, jak ogólne są.

Ma to następujące praktyczne konsekwencje:

(1) Bayesianie będą czerpać swoje metody z podstawowych równań teorii prawdopodobieństwa (których twierdzenie Bayesa jest tylko jednym przykładem), podczas gdy częstokroć wymyślają jedno intuicyjne podejście ad hoc po drugim, aby rozwiązać każdy problem.

(2) Istnieją twierdzenia wskazujące, że jeśli wnioskujesz z niepełnych informacji, lepiej konsekwentnie korzystaj z podstawowych równań teorii prawdopodobieństwa, w przeciwnym razie będziesz miał kłopoty. Wiele osób ma wątpliwości co do znaczenia takich twierdzeń, ale to właśnie widzimy w praktyce.

Na przykład możliwe jest, że w prawdziwym świecie niewinnie wyglądające przedziały ufności 95% składają się całkowicie z wartości, które są możliwe do udowodnienia (na podstawie tych samych informacji, które posłużyły do ​​ustalenia przedziału ufności). Innymi słowy, metody Frequentist mogą być sprzeczne z prostą logiką dedukcyjną. Metody bayesowskie wywodzące się całkowicie z podstawowych równań teorii prawdopodobieństwa nie mają tego problemu.

(3) Bayesian jest ściśle bardziej ogólny niż Frequentist. Ponieważ każdy fakt może być niepewny, każdemu faktowi można przypisać prawdopodobieństwo. W szczególności, jeśli fakty, nad którymi pracujesz, są związane z częstotliwościami w świecie rzeczywistym (albo jako coś, co przewidujesz, albo jako część danych), wówczas metody bayesowskie mogą je rozważyć i wykorzystać tak, jak w przypadku innych faktów z prawdziwego świata.

W związku z tym każdy problem, który częste osoby czują, że ich metody mają zastosowanie do Bayesianów, może również działać w sposób naturalny. Jednak odwrotność często nie jest prawdą, chyba że częstokroć wymyślą podstępy, aby zinterpretować swoje prawdopodobieństwo jako „częstotliwość”, taką jak na przykład wyobrażenie sobie wielu wszechświatów lub wymyślenie hipotetycznych powtórzeń do nieskończoności, które nigdy nie są wykonywane i często nie mogą być w zasadzie .


7
Czy możesz podać odniesienia do pogrubionych instrukcji, które podałeś? Na przykład „Częstokroć uważają, że podstawowe równania prawdopodobieństwa mają zastosowanie tylko czasami”? A jakie są podstawowe równania prawdopodobieństwa?
mpiktas,

6
O wiele bardziej interesująca niż debata B vs F jest twoja uwaga na temat przedziałów ufności zawierających niemożliwe wartości. Czy możesz podać lub podać link do konkretnego przykładu przedziału 95% CI zawierającego tylko niemożliwe wartości? Może to być jedna z tych rzeczy, które każdy statystyk powinien był widzieć przynajmniej raz w życiu (jako przestroga), ale ja nie.
Vincent

9
To, że element CI może zawierać wszystkie „niemożliwe” wartości, wcale nie jest „sprzeczne z prostą logiką dedukcyjną”. Brzmi to jak nieporozumienie z definicją elementu zbiorowego - lub być może pomieszanie interpretacji elementów zbiorczych z wiarygodnymi odstępami czasu.
whuber

7
Wydaje się to raczej filozoficznym rantem niż odpowiedzią na pytanie PO (które nie dotyczyło filozofii).
Cliff AB,

5
„Można wnioskować, że każdy statystyk dokonałby z CI (bez którego CI nie mają praktycznego celu ani kontaktu ze światem rzeczywistym) zaprzecza temu, co można wywnioskować z tych samych dowodów”. To wciąż w żaden sposób nie potwierdza twojego twierdzenia, że ​​częstokroć ignorują reguły prawdopodobieństwa. I obawiam się, że idzie to dobrze zdeptaną ścieżką „Bayes vs. Frequentists: walka!” których większość czytelników tutaj wolałaby uniknąć.
Cliff AB

3

Pytanie: Zatem jeśli chcemy być matematycznie poprawni, czy nie powinniśmy nie dopuścić do jakiejkolwiek interpretacji prawdopodobieństwa? Tj. Czy zarówno bayesowski, jak i częstościowy są matematycznie niepoprawne?

Tak, i dokładnie to robią ludzie zarówno w filozofii nauki, jak iw matematyce.

  1. Podejście filozoficzne. Wikipedia stanowi kompendium interpretacji / definicji prawdopodobieństwa .

  2. Matematycy nie są bezpieczni. W przeszłości szkoła w Kołmogorowie posiadała monopol prawdopodobieństwa: prawdopodobieństwo definiuje się jako miarę skończoną, która przypisuje 1 całej przestrzeni ... Ta hegemonia nie jest już aktualna, ponieważ istnieją nowe trendy w definiowaniu prawdopodobieństwa, takie jak prawdopodobieństwo kwantowe i Bezpłatne prawdopodobieństwo .


Czy rozumiesz, co należy rozumieć przez rozluźnienie założeń przemienności zmiennych losowych? (w odniesieniu do prawdopodobieństwa swobodnego - nie znam wystarczającej ilości QM, aby zrozumieć idee stojące za prawdopodobieństwem kwantowym) Czy to oznacza, że lub ? Wydaje mi się, że dyskusja o algebrach von Neumanna i algebrach implikuje to drugie. X Y Y X C X+YY+XXYYXC
Chill2Macht,

7
Algebry @William nie modelują poprawnie większości statystyk, do których są stosowane. (Analogicznie, wynalezienie liczb zespolonych w żaden sposób nie wpłynęło na zastosowanie liczb naturalnych do zjawisk. Żadne możliwe rozszerzenie matematycznej koncepcji prawdopodobieństwa nigdy nie zmieniłoby sposobu zastosowania prawdopodobieństwa - jak obecnie rozumiane -). Tim , ta odpowiedź jest zagadkowa: jedynym czysto matematycznym zagadnieniem dotyczącym dowolnego zastosowania prawdopodobieństwa jest to, czy jego aksjomaty są spójne, co można łatwo udowodnić za pomocą prostych modeli. C
whuber

2

Debata bayesowska / częsty opiera się na wielu podstawach. Jeśli mówisz o podstawach matematycznych, nie sądzę, że jest wiele.

Obaj muszą stosować różne przybliżone metody w przypadku złożonych problemów. Dwa przykłady to „bootstrap” dla częstego i „mcmc” dla bayesowskiego.

Oba pochodzą z rytuałów / procedur dotyczących ich używania. Częstym przykładem jest „zaproponowanie estymatora czegoś i oszacowanie jego właściwości przy powtarzanym próbkowaniu”, podczas gdy przykład bayesowski to „obliczenie rozkładów prawdopodobieństwa dla tego, czego nie znasz, w zależności od tego, co wiesz”. Nie ma matematycznej podstawy do wykorzystania prawdopodobieństw w ten sposób.

Debata dotyczy bardziej zastosowania, interpretacji i umiejętności rozwiązywania rzeczywistych problemów.

W rzeczywistości jest to często używane przez ludzi debatujących nad „swoją stroną”, gdzie zastosują określony „rytuał / procedurę” zastosowany przez „drugą stronę”, aby argumentować, że cała teoria powinna zostać odrzucona za nich. Niektóre przykłady obejmują ...

  • używanie głupich priorów (i ich nie sprawdzanie)
  • używanie głupich CI (i ich nie sprawdzanie)
  • mylenie techniki obliczeniowej z teorią (Bayes to nie mcmc !! To samo dotyczy zrównania walidacji krzyżowej z uczeniem maszynowym)
  • mówienie o problemie z konkretnym zastosowaniem z jedną teorią, a nie o tym, jak druga teoria rozwiązałaby konkretny problem

Haha tak, to chyba prawda. Przez pół godziny musiałem słuchać profesora o tym, jak bayesianizm jest okropny, ponieważ subiektywne wymyślanie a priori nie ma sensu i przez cały czas myślałem „no cóż, więc nie wybieraj wcześniej ”. Chodzi mi o to, że zgadzam się z tym, że argumentów strawmana jest mnóstwo.
Chill2Macht,

1

Czy zatem nie wynika z tego, że jedyną poprawną matematycznie wersją statystyki jest ta, która nie jest całkowicie agnostyczna w odniesieniu do bayesianizmu i częstości? Jeśli metody z obu klasyfikacjami są poprawne matematycznie, to czy nie jest niewłaściwą praktyką preferowanie niektórych spośród innych, ponieważ oznaczałoby to nadanie priorytetu niejasnej, źle zdefiniowanej filozofii przed precyzyjną, dobrze zdefiniowaną matematyką?

Nie. Nie następuje. Osoby, które nie są w stanie poczuć swoich emocji, są biologicznie niezdolne do podejmowania decyzji, w tym decyzji, które wydają się mieć tylko jedno obiektywne rozwiązanie. Powodem jest to, że racjonalne podejmowanie decyzji zależy od naszej zdolności emocjonalnej i naszych preferencji zarówno poznawczych, jak i emocjonalnych. Choć jest to przerażające, jest to rzeczywistość empiryczna.

Gupta R, Koscik TR, Bechara A, Tranel D. Ciało migdałowate i podejmowanie decyzji. Neuropsychologia. 2011; 49 (4): 760–766. doi: 10.1016 / j.neuropsychologia.2010.09.029.

Osoba, która woli jabłka od pomarańczy, nie może tego bronić, ponieważ jest to preferencja. I odwrotnie, osoba, która woli jabłka od pomarańczy, nie może tego racjonalnie bronić, ponieważ jest to preferencja. Ludzie, którzy wolą jabłka, często jedzą pomarańcze, ponieważ koszt jabłek jest zbyt wysoki w porównaniu do kosztu pomarańczy.

Znaczna część debaty bayesowskiej i częstej, a także debaty likwializmowej i częstej, koncentrowała się wokół błędów w zrozumieniu. Niemniej jednak, jeśli wyobrażamy sobie, że mamy osobę, która jest dobrze wyszkolona we wszystkich metodach, w tym w metodach mniejszych lub już nieużywanych, takich jak prawdopodobieństwo Karnapiana lub statystyki powiernicze, wówczas rozsądne jest, aby woleli niektóre narzędzia od innych narzędzi.

Racjonalność zależy tylko od preferencji; zachowanie zależy od preferencji i kosztów.

Może się zdarzyć, że z czysto matematycznego punktu widzenia jedno narzędzie jest lepsze od drugiego, gdzie lepiej definiuje się za pomocą funkcji kosztu lub użyteczności, ale o ile nie ma jednoznacznej odpowiedzi, w której tylko jedno narzędzie mogłoby działać, wówczas zarówno koszty, jak i preferencje należy zważyć.

Rozważ problem bukmachera rozważającego oferowanie złożonego zakładu. Oczywiście bukmacher powinien w tym przypadku stosować metody bayesowskie, ponieważ są one spójne i mają inne miłe właściwości, ale wyobraź sobie również, że bukmacher ma tylko kalkulator, a nawet ołówek i papier. Może się zdarzyć, że bukmacher, korzystając ze swojego kalkulatora i śledząc rzeczy w swojej głowie, może obliczyć rozwiązanie Frequentist i nie ma na Ziemi szansy na obliczenie Bayesian. Jeśli jest skłonny zaryzykować bycie „rezerwatorem holenderskim”, a także stwierdzi, że potencjalny koszt jest wystarczająco mały, rozsądne jest, aby oferował zakłady przy użyciu metod Frequentist.

To jest racjonalne dla ty być agnostykiem , bo twoje preferencje emocjonalne okaże się, że będzie lepiej dla ciebie. Nie jest racjonalne, aby pole było agnostyczne, chyba że uważasz, że wszyscy ludzie podzielają twoje preferencje emocjonalne i poznawcze, co, jak wiemy, nie jest prawdą.

Krótko mówiąc, nie rozumiem, jakie są podstawy matematyczne dla debaty bayesowskiej i częstej, a jeśli nie ma matematycznych podstaw dla debaty (jak twierdzi Wikipedia), nie rozumiem, dlaczego jest ona w ogóle tolerowana dyskurs akademicki.

Celem debaty akademickiej jest ukazanie zarówno starych, jak i nowych pomysłów. Duża część debaty bayesowskiej i częstokrzyskiej oraz debaty likwializmistycznej i częstokrzyskiej wynikała z nieporozumień i niechlujstwa myśli. Niektóre z nich wynikały z braku przywołania preferencji dotyczących tego, czym są. Dyskusja na temat zalet obiektywnego i hałaśliwego estymatora w porównaniu z uprzedzeniem i dokładnością estymatora jest dyskusją na temat preferencji emocjonalnych, ale dopóki ktoś go nie ma, jest całkiem prawdopodobne, że myślenie o nim pozostanie mętne na całym polu.

Nie lubię filozofii, ale lubię matematykę i chcę pracować wyłącznie w ramach aksjomatów Kołmogorowa.

Dlaczego? Ponieważ wolisz Kołmogorowa niż Coxa, de Finetti czy Savage'a? Czy ta preferencja się wkrada? Również prawdopodobieństwo i statystyki nie są matematyką, używają matematyki. Jest to gałąź retoryki. Aby zrozumieć, dlaczego może to mieć znaczenie, rozważ swoje oświadczenie:

jeśli metoda jest matematycznie poprawna, wówczas można ją zastosować, gdy założenia matematyki leżą u podstaw, w przeciwnym razie, jeśli nie jest ona matematycznie poprawna lub jeśli założenia się nie utrzymują, nie można jej użyć.

To nie jest prawda. Jest ładny artykuł na temat przedziałów ufności i ich nadużywania, cytowanie to:

Morey, Richard; Hoekstra, Rink; Rouder, Jeffrey; Lee, Michael; Wagenmakers, Eric-Jan, Błąd polegający na zaufaniu do przedziałów ufności, Psychonomic Bulletin & Review, 2016, Vol.23 (1), str. 103-123

Jeśli przeczytasz różne potencjalne przedziały ufności w artykule, każdy z nich jest poprawny matematycznie, ale jeśli następnie ocenisz ich właściwości, różnią się one znacznie. Rzeczywiście, niektóre z podanych przedziałów ufności można uznać za mające „złe” właściwości, chociaż spełniają wszystkie założenia problemu. Jeśli usuniesz interwał bayesowski z listy i skupisz się tylko na czterech interwałach częstych, to jeśli wykonasz głębszą analizę, kiedy interwały są szerokie, wąskie lub stałe, okaże się, że interwały mogą nie być „równe” „chociaż każdy spełnia założenia i wymagania.

Nie wystarczy, aby był on poprawny matematycznie, aby był użyteczny lub, alternatywnie, tak użyteczny, jak to możliwe. Podobnie może być matematycznie prawdziwe, ale szkodliwe. W artykule jest przedział, który jest najbardziej wąski, kiedy jest najmniej informacji o prawdziwej lokalizacji, a najszerszy, gdy istnieje idealna wiedza lub prawie idealna wiedza na temat lokalizacji parametru. Niezależnie od tego spełnia wymagania dotyczące zasięgu i spełnia założenia.

Matematyka nigdy nie wystarczy.


Naprawdę podoba mi się drugi artykuł. (Konkluzja pierwszego artykułu była czymś, co już słyszałem, argumentowało w sposób, który mnie przekonał, więc wydawało mi się, że nie muszę czytać.) W większości zgadzam się z tym, co mówisz. Mówiąc uczciwie, kiedy mówię matematykę, miałem na myśli bardziej znaczenie „matematyki stosowanej”, a także domyślnego zrozumienia, że ​​tematy i kierunki badań matematycznych, a także wybór aksjomatów matematycznych, mają na celu modelowanie obserwacji prawdziwy świat. Ponadto nie sądzę, aby drugi artykuł zaprzeczał temu, co mówię - autorzy przyjmują powszechne błędy, frazę
Chill2Macht,

je matematycznie (tj. dokładnie, rygorystycznie), a następnie dostarczają kontrprzykłady pokazujące, że są fałszywe. To, co próbowałem powiedzieć (jeśli dobrze pamiętam o moich zamiarach wiele miesięcy temu), to to, że jeśli twoja „filozofia” lub „filozoficzna idea” lub cokolwiek innego nie może zostać sformułowana / zawężona do precyzyjnego stwierdzenia, tj. Jednoznacznie stwierdzona, wtedy nie ma sensu się rzucać. Np. Częstokroć, którzy rozróżniają MLE (MAP z płaskim przeorem) od innych rodzajów obiektywnych priorytetów z niejasnych powodów - jeśli nie można
wyrazić

nie jest dobrym powodem do wyrażenia sprzeciwu, ponieważ sprzeciw jest zbyt niejasny, aby można go było sfalsyfikować. To, że statystyki „używają matematyki”, nie oznacza, moim zdaniem, że statystycy są usprawiedliwieni, by być niechlujnymi myślicielami niż matematykami. Matematycy cały czas kłócą się o to, które aksjomaty matematyczne są „wartościowe” lub „interesujące”, o których należy pamiętać, jak ostatecznie wskazano, oparte ostatecznie tylko na preferencjach emocjonalnych. Ale te argumenty faktycznie mogą mieć treść i poruszać pola do przodu, ponieważ pozycje każdej ze stron są wyraźnie i jednoznaczne
Chill2Macht

jak już powiedziano - np. można z jasnością powiedzieć, że intuicyści odrzucają stosowanie Prawa Wykluczonego Środka, podczas gdy inni matematycy są zadowoleni z jego stosowania. Zwróć też uwagę na zaciętą debatę na temat Axiom of Choice. Ale zarówno Prawo Wykluczonego Środka, jak i Aksjomat Wyboru są precyzyjnymi stwierdzeniami, które przy innych dokładnych założeniach mogą zostać sfałszowane, wykazane jako falsyfikowalne, udowodnione itp. (Zależnie od innych założeń). Tzn. Próbowałem argumentować, że „filozofia” / „emocja” powinna wejść w grę tylko w celu ustalenia preferencji dla różnych jednoznacznych / precyzyjnych aksjomatów . Jak
Chill2Macht,

w porównaniu do kogoś, kto mówi „priory są źli”, i nie podaje matematycznego aksjomatu, który według nich powinien spełniać, i który wybór przeora może być logicznie naruszony. Pierwsza jest bezużyteczna, a druga konstruktywna, ponieważ daje przeciwnikom coś konkretnego do pracy, np. Możliwość zaproponowania alternatywnego aksjomatu, który im „wydaje się bardziej uzasadniony w przypadku tego problemu”. Właśnie dlatego naprawdę podoba mi się drugi artykuł, do którego linkujesz, ponieważ właśnie to robi - „matematycznie” fałszywie interpretuje CI i udowadnia , że są one fałszywe.
Chill2Macht,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.