Jaka intuicja kryje się za wzorem prawdopodobieństwa warunkowego?


30

Wzór na warunkowe prawdopodobieństwo wystąpienia biorąc pod uwagę, że zdarzyło się , jest następujący: P \ left (\ text {A} ~ \ middle | ~ \ text {B} \ right) = \ frac { P \ left (\ text {A} \ cap \ text {B} \ right)} {P \ left (\ text {B} \ right)}. AB

P(A | B)=P(AB)P(B).

Mój podręcznik wyjaśnia intuicję za pomocą diagramu Venna.

wprowadź opis zdjęcia tutaj

Biorąc pod uwagę, że wystąpił B , jedynym sposobem na wystąpienie A jest zdarzenie przypadające na przecięciu A i B .

W takim przypadku prawdopodobieństwo P(A|B) po prostu nie byłoby równe prawdopodobieństwu A przecięcia B , ponieważ to jedyny sposób, żeby wydarzenie mogło się wydarzyć? czego mi brakuje?


7
Czy rozumiesz intuicyjnie, jakie jest prawdopodobieństwo warunkowe „jeśli”, jeśli na chwilę zapomnimy, jak je obliczyć?
Juho Kokkala

4
Uwzględniając B (zdarzenie, które miało miejsce ), ograniczasz przestrzeń wyników z (cały samolot) tylko do B. Zapominacie o wszystkim, co znajduje się poza B. Prawdopodobieństwo zdarzenia A należy zmierzyć względem B, ponieważ prawdopodobieństwo wynosi od 0 do 1.Ω
Vladislavs Dovgalecs

1
Tęsknisz za faktem, że biała część kręgu Wydarzenia A nie jest już częścią populacji, gdy dowiesz się o zdarzeniu B.
Monty Harder

4
Intuicja nie jest dokładna ani pojedyncza, więc po co pytać o (pojedynczą) dokładną intuicję? Przydatna intuicja wystarcza, ale nie wszystkie sugestie będą przydatne dla wszystkich ludzi.
John Coleman

Odpowiedzi:


23

Podano dobrą intuicję, że B wystąpiło - z A lub bez - jakie jest prawdopodobieństwo A? Tj. Jesteśmy teraz we wszechświecie, w którym wystąpił B - pełne prawe koło. W tym okręgu prawdopodobieństwo A jest obszarem A przecinającym B podzielonym przez pole okręgu.


5
Innymi słowy - powiem ci, że wydarzyło, co oznacza, że ​​żyjemy w kręguJaki procent zdarzeń w tym świecie znajduje się w obiektywie ( )? B A BBBAB
MichaelChirico

18

Pomyślałbym o tym w ten sposób: zakładam, że rozumiesz intuicję, dopóki:

Biorąc pod uwagę, że wystąpiło B, jedyny sposób na wystąpienie A to parzysty upadek na przecięciu A i B.

i zamierzam skomentować drugi obraz, który opublikowałeś:

  1. Wyobraź sobie, że cały biały prostokąt jest miejscem na próbkę .Ω

    Przypisanie prawdopodobieństwa do zestawu oznacza, że mierzysz w pewnym sensie ten zestaw. Jest tak samo, jakbyś zmierzył pole prostokąta, ale prawdopodobieństwo jest innym rodzajem miary, która ma określone właściwości (nie powiem nic więcej na ten temat).

  2. Wiesz, że i jest to interpretowane w następujący sposób:P(Ω)=1

    Ω reprezentuje wszystkie zdarzenia, które mogą się zdarzyć i coś musi się wydarzyć, dlatego mamy 100% prawdopodobieństwa, że ​​coś się wydarzy.

  3. Analogicznie zbiór ma prawdopodobieństwo które jest proporcjonalne do prawdopodobieństwa przestrzeni próbki . Graficznie widać, że stąd miara (jej prawdopodobieństwo ) musi być mniejsza niż . To samo rozumowanie dotyczy zbioru . Zestaw ten można zmierzyć, a jego miarą jest .P ( A ) Ω A Ω A P ( A ) P ( Ω ) A B P ( A B )AP(A)ΩAΩAP(A)P(Ω)ABP(AB)

  4. Jeśli teraz dowiesz się, że się wydarzyło, musisz pomyśleć, jakby był twoim „nowym” . Jeśli jest Twój „nowy” wtedy można mieć 100% pewność, że wszystko dzieje się w zbiorze .B Ω B Ω BBBΩBΩB

    I co to znaczy? Oznacza to, że teraz w „nowym” konkursie i trzeba przeskalować wszystkie miary prawdopodobieństwa, biorąc pod uwagę, że należy je wyrazić w kategoriach „nowej” przestrzeni próby . To prosta proporcja.B.P(BB)=1B

    Twoja intuicja jest prawie właściwa, gdy mówisz, że:

prawdopodobieństwo P (A | B) byłoby po prostu równe prawdopodobieństwu przecięcia A B.

a „prawie” wynika z faktu, że teraz zmieniła się twoja przestrzeń próbki (teraz jest ) i chcesz odpowiednio przeskalować .P ( A B )BP(AB)

  1. P ( A B ) BP(AB) to w nowym świecie, gdzie przestrzeń jest teraz próbka . Słowami powiedziałbyś to w ten sposób (i spróbuj zobrazować to na obrazie z zestawami):P(AB)B

    W nowym świecie stosunek miary do miary musi być taki sam, jak stosunek miary do miaryA B Ω A BBABΩAB

  2. Na koniec przetłumacz to na język matematyczny (prosta proporcja):

P(B):P(AB)=P(Ω):P(AB)

a ponieważ wynika, że:P(Ω)=1

P(AB)=P(AB):P(B)

5

Zobaczysz intuicję łatwo myślącą o następującym problemie.

Załóżmy, że masz 10 kulek: 6 czarnych i 4 czerwone. Z czarnych kulek 3 są Niesamowite, a czerwonych piłek tylko 1 jest Niesamowite. Jak prawdopodobne jest, że czarna kula jest również niesamowita?

Odpowiedź jest bardzo łatwa: to 50%, ponieważ mamy 3 Niesamowite Czarne kule spośród 6 Czarnych.

W ten sposób mapujesz prawdopodobieństwa do naszego problemu:

  • 3 kule, które są czarne ORAZ Niesamowite odpowiadająP(AB)
  • 6 czarnych kulek odpowiadaP(B)
  • prawdopodobieństwo, że piłka jest Niesamowita, gdy WIEMY, że jest Czarna:P(AB)

1
Czy nie byłoby sensowniej pisać zamiast ? P ( B ) = 6n(B)=6P(B)=6
Silverfish

@Silverfish Byłoby dokładniej, ale w tym przypadku
byłem intuicyjny

4

Dla podstawowej intuicji formuły prawdopodobieństwa warunkowego zawsze lubię używać tabeli dwukierunkowej. Powiedzmy, że w grupie rocznej jest 150 studentów, z których 80 to kobiety i 70 mężczyzn, z których każdy musi uczyć się dokładnie jednego kursu językowego. Dwukierunkowa tabela uczniów biorących udział w różnych kursach to:

        | French   German   Italian  | Total
-------- --------------------------- -------
Male    |     30       20        20  |    70
Female  |     25       15        40  |    80
-------- --------------------------- -------
Total   |     55       35        60  |   150

Biorąc pod uwagę, że student bierze udział w kursie języka włoskiego, jakie jest prawdopodobieństwo, że jest kobietą? Kurs języka włoskiego ma 60 studentów, z których 40 to kobiety uczące się języka włoskiego, więc prawdopodobieństwo musi być następujące:

P(F|Italian)=n(FItalian)n(Italian)=4060=23

gdzie jest licznością zbioru , tj. liczbą zawartych w nim elementów. Zauważ, że musieliśmy używać w liczniku, a nie tylko , ponieważ to ostatnie obejmowałoby wszystkie 80 kobiet, w tym pozostałe 40 którzy nie uczą się języka włoskiego.A n ( F włoski ) n ( F )n(A)An(FItalian)n(F)

Ale jeśli pytanie zostanie odwrócone, jakie jest prawdopodobieństwo, że uczeń podejmie kurs języka włoskiego, biorąc pod uwagę, że jest kobietą? Następnie 40 z 80 studentek bierze udział w kursie języka włoskiego, więc mamy:

P(Italian|F)=n(ItalianF)n(F)=4080=12

Mam nadzieję, że to zapewnia intuicję

P(A|B)=n(AB)n(B)

Zrozumienie, dlaczego ułamek można zapisać z prawdopodobieństwem zamiast liczności, jest kwestią ułamków równoważnych . Na przykład wróćmy do prawdopodobieństwa, że ​​studentka jest kobietą, biorąc pod uwagę, że uczy się włoskiego. W sumie jest 150 studentów, więc prawdopodobieństwo, że studentka jest kobietą i uczy się włoskiego, wynosi 40/150 (jest to „wspólne” prawdopodobieństwo), a prawdopodobieństwo, że student uczy się włoskiego, wynosi 60/150 (jest to „marginalne” prawdopodobieństwo ). Zauważ, że podzielenie prawdopodobieństwa łącznego przez prawdopodobieństwo krańcowe daje:

P(FItalian)P(Italian)=40/15060/150=4060=n(FItalian)n(Italian)=P(F|Italian)

(Aby zobaczyć, że ułamki są równoważne, pomnożenie licznika i mianownika przez 150 usuwa „/ 150” w każdym z nich).

Mówiąc bardziej ogólnie, jeśli Twoja przestrzeń próbkowania ma liczność - w tym przykładzie liczność wynosiła 150 - stwierdzimy, żeΩn(Ω)

P(A|B)=n(AB)n(B)=n(AB)/n(Ω)n(B)/n(Ω)=P(AB)P(B)

3

Odwróciłbym logikę. Prawdopodobieństwo, że zarówno jak i wynosi:AB

  1. Prawdopodobieństwo wydarzyło, a biorąc pod uwagę, że stało.BA
  2. Te same, ale odwrócone role dla iAB

To ci da

p(AB)=p(B)p(AB)

Jeśli szukasz negatywnego wyniku dla swojej sugestii, to prawda, że ​​prawdopodobieństwo danego jest zawarte w prawdopodobieństwie produktu, przestrzeń, w którą rzucasz kostką, jest mniejsza niż początkowa przestrzeń prawdopodobieństwa - wiesz na pewno jesteś „w” , dlatego dzielisz przez rozmiar nowej przestrzeni.ABB


2

Diagram Venna nie reprezentuje prawdopodobieństwa, reprezentuje miarę podzbiorów przestrzeni zdarzeń. Prawdopodobieństwo to stosunek dwóch miar; prawdopodobieństwo X jest wielkością „wszystkiego, co stanowi X”, podzieloną wielkością „wszystkich rozważanych zdarzeń”. Za każdym razem, gdy obliczasz prawdopodobieństwo, potrzebujesz zarówno „przestrzeni sukcesu”, jak i „przestrzeni populacji”. Nie można obliczyć prawdopodobieństwa na podstawie „wielkości” przestrzeni sukcesu. Na przykład prawdopodobieństwo rzutu siódemką z dwiema kostkami to liczba sposobów rzutu siódemką podzielona przez całkowitą liczbę sposobów rzutu dwiema kostkami. Sama znajomość liczby sposobów wyrzucenia siódemki nie wystarczy, aby obliczyć prawdopodobieństwo. P (A | B) to stosunek miary „zdarzają się zarówno A, jak i B” przestrzeń i miara przestrzeni „B dzieje się”. Właśnie to „|” oznacza: oznacza „zrób to, co nastąpi po tym, przestrzeń populacji”.


2

Myślę, że najlepszym sposobem, aby o tym pomyśleć, jest rysowanie ścieżek krok po kroku.

Opiszmy Zdarzenie B jako rzucie na uczciwej kości - można to łatwo wykazać jako prawdopodobieństwo . Teraz opiszmy Zdarzenie A jako dobieranie Asa ze standardowej talii 52 kart - można to łatwo wykazać jako prawdopodobieństwo .416113

Rozpocznijmy teraz eksperyment, w którym rzucamy kością, a następnie wybieramy kartę. Tak więc jest prawdopodobieństwem, że narysujemy asa, biorąc pod uwagę, że wyrzuciliśmy już . Jeśli spojrzysz na obrazek, będzie to ścieżka (idź w górę), a następnie ścieżka (idź w górę).P(A|B)416113

Intuicyjnie całkowita przestrzeń prawdopodobieństwa jest tym, co już nam dano: wyrzucenie . Możemy zignorować i do którego prowadzi początkowa ścieżka, ponieważ WYDAŁEM, że wyrzuciliśmy . Zgodnie z prawem mnożenia, nasza całkowita przestrzeń jest wtedy .411312134(16×113)+(16×1213)

Jakie jest prawdopodobieństwo, że narysowaliśmy asa, GIVEN, że wyrzuciliśmy ? Odpowiedź przy użyciu ścieżki to , które następnie musimy podzielić przez całkowitą przestrzeń. Otrzymujemy4(16×113)

P(A|B)=16×113(16×113)+(16×1213).

wprowadź opis zdjęcia tutaj


2
Zastanawiałem się, do czego służy opinia, ponieważ drzewa prawdopodobieństwa mogą być bardzo pouczające. Być może problemem jest to, że użycie niezależnych zdarzeń do ilustracji pomija punkt prawdopodobieństwa warunkowego, a mianowicie to, że rozkład prawdopodobieństwa może się zmieniać w zależności od zdarzenia warunkowego. Pomocne może być użycie mniej powierzchownej ilustracji.
whuber

1

Pomyśl o tym pod względem liczenia. Marginalnym prawdopodobieństwem jest to, ile razy A wystąpiło podzielone przez wielkość próby. Wspólne prawdopodobieństwo A i B to iloraz A występującego razem z B podzielone przez wielkość próby. Warunkowe prawdopodobieństwo A danej B to ile razy A wystąpiło razem z B podzielone przez liczbę razy B, tj. Tylko „A” w „B”.

Na tym blogu możesz znaleźć ładną ilustrację wizualną , która pokazuje ją za pomocą klocków Lego.


1

W momencie pisania jest około 10 odpowiedzi, które wydają się pomijać najważniejszy punkt: masz w zasadzie rację.

Czy w takim przypadku prawdopodobieństwo P (A | B) nie byłoby po prostu równe prawdopodobieństwu przecięcia A, ponieważ jest to jedyny sposób, w jaki zdarzenie może się wydarzyć?

To zdecydowanie prawda. To wyjaśnia, dlaczego ilość, którą definiujemy jest w rzeczywistości przeskalowana .P(A|B)P(AB)

czego mi brakuje?

Brakuje Ci prawdopodobieństwa, że ​​B zostanie spełnione, biorąc pod uwagę, że B jest spełnione, powinno wynosić 1, ponieważ jest to dość pewne zdarzenie, a nie które może być mniejsze niż 1. Dzielenie przez sprawia, że ​​warunkowe prawdopodobieństwo B, biorąc pod uwagę B, wynosi 1, zgodnie z oczekiwaniami. W rzeczywistości jest to jeszcze lepsze i sprawia, że ​​mapa jest prawdopodobieństwem - więc prawdopodobieństwo warunkowe jest w rzeczywistości prawdopodobieństwem.P(BB)=P(B)P(B)AP(A|B)


0

Wydaje mi się, że jest bardziej intuicyjny, gdy mamy konkretne dane do oszacowania prawdopodobieństw.

Użyjmy mtcarsdanych jako przykładu, dane wyglądają tak (używamy tylko liczby cylindrów i rodzaju skrzyni biegów).

> mtcars[,c("am","cyl")]
                    am cyl
Mazda RX4            1   6
Mazda RX4 Wag        1   6
Datsun 710           1   4
Hornet 4 Drive       0   6
...  
...
Ford Pantera L       1   8
Ferrari Dino         1   6
Maserati Bora        1   8
Volvo 142E           1   4

Możemy obliczyć rozkład połączeń dla dwóch zmiennych, wykonując tabelę krzyżową:

> prop.table(table(mtcars$cyl,mtcars$am))

          0       1
  4 0.09375 0.25000
  6 0.12500 0.09375
  8 0.37500 0.06250

Wspólne prawdopodobieństwo oznacza, że ​​chcemy wziąć pod uwagę dwie zmienne jednocześnie. Na przykład zapytamy, ile samochodów ma 4 cylindry i manualną skrzynię biegów.

Teraz dochodzimy do prawdopodobieństwa warunkowego. Znalazłem najbardziej intuicyjny sposób wyjaśnienia prawdopodobieństwa warunkowego, używając terminu filtrowanie danych.

Załóżmy, że chcemy uzyskać , dokonamy następujących oszacowań:P(am=1|cyl=4)

> cyl_4_cars=subset(mtcars, cyl==4)
> prop.table(table(cyl_4_cars$am))

        0         1 
0.2727273 0.7272727 

Oznacza to, że dbamy tylko o samochody z 4 cylindrami. Więc filtrujemy dane na ten temat. Po filtrowaniu sprawdzamy, ile z nich to manualna skrzynia biegów.

Możesz porównać to z połączeniem, o którym wspomniałem wcześniej, aby poczuć różnice.


0

Gdyby Abyło nadzbiorem Bprawdopodobieństwa, które się Azdarza, to zawsze 1 biorąc pod uwagę, że się Bzdarzyło, tj P(A|B) = 1. Jednak Bsamo prawdopodobieństwo może być znacznie mniejsze niż 1.

Rozważ następujący przykład:

  • podana xliczba naturalna to 1..100,
  • Ato „ xjest liczbą parzystą”
  • Bjest „ xdzieli się przez 10”

mamy wtedy:

  • P(A) wynosi 0,5
  • P(B) wynosi 0,1

Jeśli wiemy, że xmożna podzielić przez 10 (tzn. xJest w Bśrodku), wiemy, że jest to również liczba parzysta (tj. xJest w Aśrodku), więc P(A|B) = 1.

Z zasady Bayesa mamy:

P(A|B)=P(AB)P(B)

zwróć uwagę, że w naszym (specjalnym) przypadku , tzn. prawdopodobieństwo, że jest zarówno liczbą parzystą, jak i liczbą podzielną przez 10, jest równe prawdopodobieństwu, które jest liczbą podzielną przez 10. Dlatego mamy i podłączając to z powrotem do reguły Bayesa otrzymujemy .P(AB)xxP(AB)=P(B)P(A|B)=P(B)/P(B)=1


W przypadku nie-zdegenerowanego przykładu rozważ np. AxJest podzielna przez 7” i Bxjest podzielna przez 3”. Zatem P(A|B)jest równoważne „biorąc pod uwagę, że wiemy, że xmożna podzielić przez 3, jakie jest prawdopodobieństwo, że jest (także) podzielna przez 7?”. Lub równoważnie: „Jaką część liczb 3, 6, ..., 99 można podzielić przez 7”?


0

Myślę, że twoje wstępne stwierdzenie może być nieporozumieniem.

Napisałeś:

Wzór na warunkowe prawdopodobieństwo wystąpienia zdarzenia A po wystąpieniu B jest następujący:

Z twojego sformułowania może to brzmieć tak, jakby były 2 zdarzenia „Najpierw wydarzyło się B, a następnie chcemy obliczyć prawdopodobieństwo, że A się wydarzy”.

Nie o to chodzi. (Poniższe informacje są ważne, niezależnie od tego, czy doszło do nieporozumienia).

Mamy tylko 1 wydarzenie, które opisuje jedna z 4 możliwości:

  1. ani ani ;AB

  2. po prostu , nie ;AB

  3. po prostu , nie ;BA

  4. zarówno i .AB

Umieszczając na nim kilka przykładowych liczb, powiedzmy

P(A)=0.5,P(B)=0.5,andA and B are independent.

Wynika z tego, że

P(A and B)=0.25andP(neither A nor B)=0.25.

Początkowo (bez wiedzy o zdarzeniu) wiedzieliśmy, że .P(AB)=0.25

Ale kiedy wiemy, że się wydarzyło, jesteśmy w innej przestrzeni. to połowa więc prawdopodobieństwo biorąc pod uwagę , , wynosi . To nie jest , wiedząc, że doszło do .BP(AB)P(B)ABP(A|B)0.50.25B


0

Prawdopodobieństwo warunkowania NIE jest równe prawdopodobieństwu przecięcia. Oto intuicyjna odpowiedź:

1) : „Wiemy, że wydarzyło. Jakie jest prawdopodobieństwo, że się wydarzy?”P(BA)AB

2: : „Nie wiemy, czy zdarzyło się lub To jakie jest prawdopodobieństwo, że oba wystąpią?P(AB)AB

Różnica polega na tym, że w pierwszym mamy dodatkowe informacje (wiemy, że występuje najpierw). W drugim nie wiemy nic.A

Zaczynając od prawdopodobieństwa drugiego, możemy wywnioskować prawdopodobieństwo pierwszego.

Zdarzenie, w którym wystąpią zarówno jak i , może nastąpić na dwa sposoby:AB

1) Prawdopodobieństwo ORAZ prawdopodobieństwo biorąc pod uwagę, że zdarzyło sięABA

2) Prawdopodobieństwo ORAZ prawdopodobieństwo biorąc pod uwagę, że wydarzyło.BAB

Okazuje się, że obie sytuacje tak samo się zdarzają. (Sam nie potrafię znaleźć intuicyjnego powodu). Dlatego musimy rozważyć oba scenariusze za pomocą0.5

P(AB)=1/2P(A(BA))+1/2P(B(AB))

Teraz użyj, że i są niezależne i pamiętaj, że oba scenariusze równie prawdopodobne mogą się wydarzyć.ABA

P(AB)=P(A)P(BA)

Tadaaa ... teraz wyizoluj prawdopodobieństwo warunkowania!

btw. Chciałbym, gdyby ktoś mógł wyjaśnić, dlaczego scenariusz 1 i 2 są równe. Klucz leży tam imo.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.