Czy ktoś rozwiązał ćwiczenie PTLOS 4.1?


19

To ćwiczenie podane w Teorii Prawdopodobieństwa: Logika Nauki Edwin Jaynesa 2003. Jest to częściowe rozwiązanie tutaj . Opracowałem bardziej ogólne częściowe rozwiązanie i zastanawiałem się, czy ktoś go rozwiązał. Poczekam chwilę, zanim opublikuję swoją odpowiedź, aby dać innym szansę.

Okej, więc załóżmy, że mamy wzajemnie wykluczającą się i wyczerpującą hipotezę, oznaczoną przez . Załóżmy ponadto, że mamy zestawów danych oznaczonych jako . Współczynnik prawdopodobieństwa dla i-tej hipotezy daje:nHi(i=1,,n)mDj(j=1,,m)

LR(Hi)=P(D1D2,Dm|Hi)P(D1D2,Dm|H¯i)

Zauważ, że są to prawdopodobieństwa warunkowe. Teraz załóżmy, że daną hipotezę ith H_ {i} m zestawy danych są niezależne, więc mamy:Him

P(D1D2,Dm|Hi)=j=1mP(Dj|Hi)(i=1,,n)Condition 1

Byłoby całkiem wygodne, gdyby mianownik uwzględniał również tę sytuację, abyśmy mieli:

P(D1D2,Dm|H¯i)=j=1mP(Dj|H¯i)(i=1,,n)Condition 2

W tym przypadku współczynnik prawdopodobieństwa zostanie podzielony na iloczyn mniejszych czynników dla każdego zestawu danych, dzięki czemu otrzymamy:

LR(Hi)=j=1mP(Dj|Hi)P(Dj|H¯i)

W takim przypadku każdy zestaw danych będzie „głosował na Hi ” lub „głosował przeciwko Hi ” niezależnie od dowolnego innego zestawu danych.

Ćwiczenie ma na celu udowodnienie, że jeśli n>2 (więcej niż dwie hipotezy), nie ma takiego nietrywialnego sposobu, w jaki może to nastąpić. Oznacza to, że jeśli założysz, że warunek 1 i warunek 2 utrzymują się, wówczas co najwyżej jeden z czynników:

P(D1|Hi)P(D1|H¯i)P(D2|Hi)P(D2|H¯i)P(Dm|Hi)P(Dm|H¯i)
różni się od 1, a zatem tylko 1 zestaw danych przyczyni się do współczynnika prawdopodobieństwa.

Osobiście uważam ten wynik za dość fascynujący, ponieważ w zasadzie pokazuje, że wielokrotne testowanie hipotez jest niczym innym jak serią binarnych testów hipotez.


Jestem trochę zdezorientowany przez indeks na ; jest ? A może to ? Wydaje się, że powinien to być ten drugi, ale nie jestem pewien, dlaczego indeks dolny. A może brakuje mi czegoś zupełnie :)H¯iH¯i=argmaxhHiP(D1,Dm|h)H¯i=argmaxh{H1,,Hn}P(D1,Dm|h)
JMS

@JMS - oznacza logiczne stwierdzenie „ jest fałszywe” lub że jedna z pozostałych hipotez jest prawdziwa. Zatem w „Algebrze boolowskiej” mamy (ponieważ hipoteza są ekskluzywne i wyczerpujące)Hi ¯ H iH1+H2++Hi-1+Hi+1++HnH¯iHiH¯iH1+H2++Hi1+Hi+1++Hn
prawdopodobieństwo jest

Wydaje mi się, że musi istnieć bardziej intuicyjne rozwiązanie niż algebra podana w częściowym rozwiązaniu Sandersa. Jeśli dane są niezależne w świetle każdej z hipotez, to nadal obowiązuje, gdy zmienione są priorytety hipotezy. I jakoś wynik jest taki, że to samo musi dotyczyć wniosku ...
charles.y.zheng

@charles - Wiem dokładnie, jak się czujesz. Pomyślałem, że mógłbym to wywnioskować stosując pewną niespójność jakościową (Reductio ad absurdum), ale nie mogłem tego zrobić. Mógłbym jednak przedłużyć matematykę Sandera. I to Warunek 2 jest „podejrzany” pod względem znaczenia wyniku.
Prawdopodobieństwo

@probabilityislogic „zasadniczo pokazuje, że wielokrotne testowanie hipotez jest niczym innym jak serią binarnych testów hipotez”. Czy mógłbyś rozwinąć to zdanie? Czytając stronę 98 z książki Jaynesa, rozumiem, że można zredukować testowanie do testowania względem siebie nawzajem, a następnie w jakiś sposób znormalizować, aby uzyskać pozycję tylną dla , ale nie rozumiem, dlaczego miałoby to nastąpić z wyników ćwiczenia 4.1. H 1 H 1H1,,HnH1H1
Martin Drozdik,

Odpowiedzi:


7

Powód, dla którego przyjęliśmy równanie. 4.28 (w książce twój warunek 1) był taki, że przyjęliśmy prawdopodobieństwo danych, biorąc pod uwagę pewną hipotezę a informacje podstawowe są niezależne, innymi słowy dla dowolnych i z : X D i D j i jHaXDiDjij

P(Di|DjHaX)=P(Di|HaX)(1)
Brak możliwości rozciągnięcia poza przypadek binarny można zatem omówić w następujący sposób: Jeśli przyjmiemy eq .1 aby być prawdą, czy równanie 2 jest również prawdziwe?

P(Di|DjHa¯X)=?P(Di|Ha¯X)(2)
Najpierw spójrzmy na lewą stronę równania 2, używając reguły mnożenia:

n { H 1H n } ¯ H a = b a H b P ( D i | D j ¯ H a X ) = b a P ( D i | D j H b X ) P ( D j H b | X )

P.(reja|rejotH.za¯X)=P.(rejarejotH.za¯|X)P.(rejotH.za¯|X)(3))
Ponieważ hipotez zakłada się wzajemnie wykluczających się i wyczerpujących, możemy napisać: Więc równanie 3 staje się: W przypadku, gdy mamy tylko dwie hipotezy, sumowania są usuwane (ponieważ istnieje tylko jeden ), równe warunki w mianowniku i mianowniku, ), anuluj, a równanie 2 okazało się prawidłowe, ponieważn{H.1H.n}
H.za¯=bzaH.b
baP(DjHb|XHb=¯ H a
P(Di|DjHa¯X)=baP(Di|DjHbX)P(DjHb|X)baP(DjHb|X)=baP(Di|HbX)P(DjHb|X)baP(DjHb|X)
baP(DjHb|XHb=Ha¯ . Dlatego równanie 4.29 można wyprowadzić z równania 4.28 w książce. Ale gdy mamy więcej niż dwie hipotezy, tak się nie dzieje, na przykład, jeśli mamy trzy hipotezy: , powyższe równanie : Innymi słowy: Jedynym sposobem, w jaki to równanie może dać równanie 2, jest to, że oba mianowniki są równe 1, tzn. Oba ułamki w mianowniki muszą wynosić zero. Ale to niemożliwe.P ( D i | D j ¯ H 1 X ) = P ( D i | H 2 X ) P ( D j H 2 | X ) + P ( D i | H 3 X ) P ( D j H 3 | X ){H1,H2,H3} P(Di|Dj ¯ H 1 X)=P(Di|H2X)
P(Di|DjH1¯X)=P(Di|H2X)P(DjH2|X)+P(Di|H3X)P(DjH3|X)P(DjH2|X)+P(DjH3|X)
P(Di|DjH1¯X)=P(Di|H2X)1+P(DjH3|X)P(DjH2|X)+P(Di|H3X)1+P(DjH2|X)P(DjH3|X)

1
Myślę, że czwarte równanie jest nieprawidłowe. Powinniśmy miećP(DiDjHb|X)=P(DiHB|X)P(Dj|HbX)
prawdopodobieństwo

Dziękuję bardzo prawdopodobne jest logiczne, byłem w stanie poprawić rozwiązanie. Co teraz myślisz
astroboy

Po prostu nie rozumiem, jak Jaynes mówi: „Ci, którzy nie rozróżniają logicznej niezależności od przyczynowej, przypuszczaliby, że (4.29) jest zawsze ważna”.
astroboy

Myślę, że znalazłem odpowiedź na mój ostatni komentarz: zaraz po zdaniu powyżej Jaynes mówi: „pod warunkiem, że żaden nie wywiera fizycznego wpływu na żaden inny ”. Zasadniczo Jaynes mówi, że nawet jeśli nie mają fizycznego wpływu, istnieje logiczne ograniczenie, które nie pozwala na uogólnienie na więcej niż dwie hipotezy. DiDj
astroboy

Po ponownym przeczytaniu tekstu uważam, że mój ostatni komentarz nie był dobrą odpowiedzią. Jak rozumiem teraz, Jayne chciał powiedzieć: „Ci, którzy nie potrafią rozróżnić logicznej niezależności od przyczynowej” twierdzą, że i nie mają wpływu fizycznego. W ten sposób mają oni przyczynową niezależność, która implikuje logiczną niezależność od dowolnego zestawu hipotez. Uważają więc, że cała ta dyskusja jest bez znaczenia i po prostu przystępują do uogólnienia przypadku binarnego. DiDj
astroboy

1

Ok, więc zamiast iść i wyprowadzić równanie Saundera (5), przedstawię je tutaj. Warunek 1 i 2 implikują następującą równość:

j=1m(kihkdjk)=(kihk)m1(kihkj=1mdjk)
gdzie
djk=P(Dj|Hk,I)hk=P(Hk|I)

Teraz możemy specjalizować się w sprawie (dwa zestawy danych), biorąc i ponownie oznaczając . Należy zauważyć, że te dwa zestawy danych nadal spełniają warunki 1 i 2, więc powyższy wynik dotyczy również ich. Rozwijając się teraz w przypadku , otrzymujemy:m=2D1(1)D1D2(1)D2D3Dmm=2

(kihkd1k)(lihld2l)=(kihk)(lihld1ld2l)

kilihkhld1kd2l=kilihkhld1ld2l

kilihkhld2l(d1kd1l)=0(i=1,,n)

Termin występuje dwukrotnie w powyższym podwójnym sumowaniu, raz, gdy i , i jeszcze raz, gdy i . Stanie się tak długo, jak długo . Współczynnik każdego terminu podano przez i . Ponieważ istnieją z tych równań, możemy faktycznie usunąć z tych równań. Aby zilustrować się , A to oznacza, że mają wszystkie warunki z wyjątkiem gdzie i . Teraz weź(d1ad1b)k=al=bk=bl=aa,bid2bd2aiii=1a=1,b=2b=1,a=2i=3, i teraz możemy mieć te dwa warunki (zauważ, że zakłada to co najmniej trzy hipotezy). Tak więc równanie można zapisać ponownie jako:

l>khkhl(d2ld2k)(d1kd1l)=0

Teraz każdy z musi być większy od zera, ponieważ w przeciwnym razie mamy do czynienia z hipotezą , a odpowiedź można przeformułować w kategoriach . Można je więc usunąć z powyższego zestawu warunków:hin1<nn1

l>k(d2ld2k)(d1kd1l)=0

Zatem istnieją warunki , które muszą być spełnione, a każdy warunek implikuje jeden z dwóch „warunków podrzędnych”: że dla dowolnego lub (ale niekoniecznie oba). Teraz mamy zestaw wszystkich unikalnych par dla . Gdybyśmy wzięli z tych par dla jednej z , mielibyśmy wszystkie liczby w zbiorze i . Jest tak, ponieważ pierwsza para ma elementy, a każda dodatkowa para przynosi co najmniej jeden dodatkowy element do zestawu *n(n1)2djk=djlj=1j=2(k,l)djk=djln1j1,,ndj1=dj2==dj,n1=dj,n2

Należy jednak pamiętać, że ponieważ istnieją warunki , musimy wybrać co najmniej najmniejszą liczbę całkowitą większą lub równą dla jednego z lub . Jeżeli to liczba wybranych terminów jest większa niż . Jeśli lub , musimy wybrać dokładnie warunki . Oznacza to, że . Tylko w przypadku dwóch hipotez ( ) nie występuje to. Ale z ostatniego równania w artykule Saundera ten warunek równości implikuje:n(n1)212×n(n1)2=n(n1)4j=1j=2n>4n1n=4n=3n1dj1=dj2==dj,n1=dj,nn=2

P(Dj|H¯i)=kidjkhkkihk=djikihkkihk=dji=P(Dj|Hi)

Zatem w ilorazie prawdopodobieństwa mamy:

P(D1(1)|Hi)P(D1(1)|H¯i)=P(D1|Hi)P(D1|H¯i)=1 ORP(D2(1)|Hi)P(D2(1)|H¯i)=P(D2D3,Dm|Hi)P(D2D3,Dm|H¯i)=1

Aby ukończyć dowód, zauważ, że jeśli drugi warunek się utrzymuje, wynik jest już udowodniony, a tylko jeden współczynnik może różnić się od 1. Jeśli pierwszy warunek się utrzymuje, możemy powtórzyć powyższą analizę, ponownie oznaczając i . Wtedy nie wnosi wkładu, lub jest jedynym współtwórcą. Gdyby nie przyczynił się do wstrzymania, mielibyśmy wtedy trzecie oznakowanie i tak dalej. Zatem tylko jeden zestaw danych może przyczynić się do współczynnika prawdopodobieństwa, gdy warunek 1 i warunek 2 utrzymają się, i istnieją więcej niż dwie hipotezy.D1(2)D2D2(2)D3,DmD1,D2D2D1D2

* UWAGA: Dodatkowa para może nie przynosić nowych warunków, ale zostanie to zrównoważone przez parę, która przyniosła 2 nowe warunki. np. weź jako pierwsze [+2], [+1] i [+0], ale następny termin musi mieć dla obu . Spowoduje to dodanie dwóch terminów [+2]. Jeśli , nie musimy już wybierać, ale dla „innego” musimy wybrać 3 pary, które nie są . Są to a zatem zachowuje się równość, ponieważ wszystkie liczby są w zbiorze.dj1=dj2dj1=dj3dj2=dj3djk=djlk,l(1,2,3)n=4j(1,2),(2,3),(1,3)(1,4),(2,4),(3,4)(1,2,3,4)


Zaczynam wątpić w dokładność tego dowodu. Wynik w matematyce Saundersa oznacza tylko nieliniowych ograniczeń na . To sprawia, że ma tylko stopni swobody zamiast . Jednak aby przejść do warunków wymagany jest inny argument. nrejotkrejotkn2)nn(n-1)2)
probabilislogiczny

0

Dla przypomnienia, oto nieco szerszy dowód . Zawiera także pewne informacje ogólne. Może jest to pomocne dla innych osób studiujących ten temat.

Główną ideą dowodu jest wykazanie, że warunki 1 i 2 Jaynesa oznaczają, że dla wszystkich zbiorów danych oprócz jednego . Następnie pokazuje, że dla wszystkich tych zestawów danych mamy również Mamy więc dla wszystkich zestawów danych oprócz jednego, Powodem, dla którego chciałem dołączyć tutaj dowód, jest to, że niektóre z zaangażowanych kroków nie są wcale oczywiste i należy uważać, aby nie używać niczego poza warunkami 1 i 2 oraz reguła dotycząca produktu (jak wiele innych dowodów pośrednio). Linku powyżej

P(Dmk|HiX)=P(Dmk|X),
mk=1,,m
P(Dmk|H¯iX)=P(Dmk|X).
P(Dmk|HiX)P(Dmk|H¯iX)=P(Dmk|X)P(Dmk|X)=1.
obejmuje szczegółowo wszystkie te kroki. Jest na moim Dysku Google i upewnię się, że pozostanie dostępny.


Witamy w Cross Validated . Dziękuję za Twoją odpowiedź. Czy możesz edytować swoją odpowiedź, aby ją rozwinąć, aby uwzględnić główne punkty podanego linku? Będzie to bardziej pomocne zarówno dla osób szukających w tej witrynie, jak i w przypadku zerwania linku. Nawiasem mówiąc, skorzystać z okazji, aby zrobić wycieczkę , jeśli nie to zrobić już. Zobacz także kilka wskazówek na temat odpowiedzi , pomocy w formatowaniu i zapisywania równań za pomocą LaTeX / MathJax .
Ertxiem

Dzięki za komentarz. Zredagowałem post i naszkicowałem główne kroki dowodu.
dennis
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.