Ważniejsza statystyka: „90 procent wszystkich kobiet przeżyło” czy „90 procent wszystkich kobiet, które przeżyły, to kobiety”?


14

Rozważ następujące stwierdzenia dotyczące Titanica:

Założenie 1: tylko mężczyźni i kobiety byli na statku

Założenie 2: Było wielu mężczyzn i kobiet

Oświadczenie 1: 90 procent wszystkich kobiet przeżyło

Oświadczenie 2: 90 procent wszystkich, którzy przeżyli, to kobiety

Pierwszy wskazuje, że ratowanie kobiet miało prawdopodobnie wysoki priorytet (niezależnie od tego, czy ratowanie mężczyzn było)

Kiedy przydatna jest druga statystyka?

Czy możemy powiedzieć, że jedno z nich jest prawie zawsze bardziej przydatne niż drugie?


40
bardziej przydatny w jakim celu?
Aksakal

12
Zaskoczony, żadna z tych odpowiedzi nie wspominała o paradoksie Simpsona
Nemo,

3
Powiedziałbym, że zależy to od tego, czy jesteś kobietą, czy nie!
meh,

6
Pierwsze stwierdzenie nie ma znaczenia bez porównywalnej statystyki dla mężczyzn.
Barmar

1
@RahulSaha Ale jeśli 95% mężczyzn przeżyje, może to oznaczać, że nadają mężczyznom jeszcze wyższy priorytet. Dlatego potrzebne jest porównanie.
Barmar

Odpowiedzi:


54

W obecnej formie ani jedno z oświadczeń 1, ani 2 nie jest bardzo przydatne. Gdyby 90% pasażerów stanowiły kobiety, a 90% ludzi przeżyło losowo, wówczas oba stwierdzenia byłyby prawdziwe. Oświadczenia należy rozpatrywać w kontekście ogólnego składu pasażerów. I ogólna szansa na przeżycie.


Załóżmy, że mieliśmy tyle mężczyzn, ile kobiet, po 100 osób. Oto kilka możliwych matryc mężczyzn (M) przeciwko kobietom (W) i przeżywających (S) przeciwko zmarłym (D):

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

90% kobiet przeżyło. Podobnie jak 90% mężczyzn. Stwierdzenie 1 jest prawdziwe, stwierdzenie 2 jest fałszywe, ponieważ połowa osób, które przeżyły, to kobiety. Jest to zgodne z wieloma ocalałymi, ale nie ma różnicy między płciami .

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

90% kobiet przeżyło, ale tylko 10% mężczyzn. 90% osób, które przeżyły, stanowiły kobiety. Oba stwierdzenia są prawdziwe. Jest to zgodne z różnicą między płciami : kobiety częściej przeżyły niż mężczyźni.

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

9% kobiet przeżyło, ale tylko 1% mężczyzn. 90% osób, które przeżyły, stanowiły kobiety. Oświadczenie 1 jest fałszywe, oświadczenie 2 jest prawdziwe. Jest to znowu zgodne z różnicą między płciami : kobiety częściej przeżyły niż mężczyźni.


3
(or indeed, if *everyone* survived)... Jeśli wszyscy przeżyli, przeżyło 100% wszystkich kobiet, niezależnie od proporcji.
Bridgeburners,

1
@Bridgeburners: masz całkowitą rację i uderzyło mnie to, gdy nie było mnie przy komputerze. Dziękuję, zredagowałem swoją odpowiedź.
Stephan Kolassa,

18

Na pierwszy rzut oka warunkowe prawdopodobieństwo przeżycia uzależnionego od seksu jest bardziej przydatne, po prostu ze względu na kierunek przepływu informacji. Płeć danej osoby znana jest przed jej statusem przeżycia, a prawdopodobieństwo to można wykorzystać w sensie predykcyjnym i prospektywnym. Nie ma również wpływu na rozpowszechnienie kobiet. W razie wątpliwości pomyśl o przewidywaniu.


Tak, na pierwszy rzut oka. Tak więc, aby upewnić się, że rozumiem, jak to odnosi się do faktycznych statystyk ... mówisz, że stwierdzenie nr 1 jest przydatne, ponieważ mówi mi, że jeśli jestem kobietą, na pokładzie dużego pasażerskiego statku pasażerskiego w 1912 r. akurat tonie w wodach zaatakowanych przez góry lodowe, to czy moje szanse na przeżycie wynoszą 90%? A dodanie rozsądnego założenia, że ​​technologia i praktyki ratujące życie uległy poprawie od tego czasu, oznaczałoby, że szansa na przeżycie dzisiaj takiej sytuacji jest prawdopodobnie nawet lepsza niż 90%? Chłodny! ;-)
Don Hatch

Te komentarze do sprzedaży poza pierwotnym celem opisowym.
Frank Harrell,

Czy na pewno masz właściwy cel? Najwyraźniej chodzi o użyteczność tych stwierdzeń dotyczących prawdziwego Titanica, który w rzeczywistości nie jest tak przydatny do przewidywania, ponieważ od tego czasu tak wiele się zmieniło. Wygląda więc na to, że twoja heurystyka zawiodła na pierwszym przedstawionym przykładzie, prawda? To nie wydaje się dobry początek. Z drugiej strony być może PO chciał, aby pytanie Titanica było pełnomocnikiem do ogólnego pytania o tej samej formie, co w przypadku obecnych scenariuszy, które mają znaczenie predykcyjne; Nie wiem
Don Hatch,

1
Tak jak mam szczegółowe studium przypadku dotyczące prawdopodobieństwa przeżycia pasażerów TItanic w mojej książce Strategie modelowania regresji , warto odkryć, co się stało. Nie używam przewidywanych prawdopodobieństw z tego modelu logistycznego do przewidywania przyszłych Titanics, ale raczej do odkrywania wzorców w procesie wyboru szalupy ratunkowej.
Frank Harrell,

6

Pierwszy wskazuje, że ratowanie kobiet miało prawdopodobnie wysoki priorytet (niezależnie od tego, czy ratowanie mężczyzn było)

Słowo „priorytet” pochodzi od łacińskiego słowa „przed”. Priorytetem jest coś, co pojawia się przed czymś innym (gdzie „przed” jest używane w znaczeniu „ważniejsze”). Jeśli powiesz, że ratowanie kobiet było priorytetem, to ratowanie kobiet musi nastąpić przed czymś innym. Naturalnym założeniem jest to, że przedtem ratuje ludzi. Jeśli powiesz „bez względu na to, czy ratowanie ludzi było”, to zastanawiamy się, co się stało wcześniej.

To, że kobiety miały wysoki wskaźnik przeżycia, niewiele mówi, jeśli nie wiemy, jaki był ogólny wskaźnik przeżycia. Ostatni statek, na którym byłem, przeżył ponad 90% kobiet, ale nie scharakteryzowałbym tego jako wykazanie, że ratowanie kobiet było priorytetem.

Wiedząc, jaki procent kobiet, które przeżyły, stanowiły kobiety, niewiele mówi, nie wiedząc, jaki procent ogółu ludzi to kobiety.

To, która statystyka jest bardziej użyteczna, naprawdę zależy od sytuacji. Jeśli chcesz wiedzieć, jak niebezpieczne jest coś, śmiertelność jest ważniejsza. Jeśli chcesz wiedzieć, co wpływa na to, jak niebezpieczne jest coś, ważny jest procentowy podział ofiar.


2
Fajna krytyka :-) „Ostatni statek, na którym byłem, przeżył ponad 90% kobiet, ale nie scharakteryzowałbym tego jako wykazanie, że ratowanie kobiet miało wysoki priorytet”. Pewnie, że tak. Wysoki priorytet w porównaniu do wyrzucania ich za burtę! Jasne, to absurdalna interpretacja „wysokiego priorytetu”, ale ponieważ PO wykluczył interpretację „wyższego priorytetu niż ratowanie ludzi”, pozostały nam tylko absurdalne interpretacje.
Don Hatch,

3

Być może przydatne będzie zbadanie, w jaki sposób te prawdopodobieństwa są powiązane.

WS

P(S|W)=0.9

P(W|S)=0.9

Twierdzenie Bayesa ilustruje związek między tymi stwierdzeniami prawdopodobieństwa.

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W) (odsetek kobiet na tytanii) są dość łatwe do przeszukania, a zatem prawdopodobieństwa są od siebie zależne. To znaczy, wiedząc, że jeden w pełni definiuje drugi.

P(S)P(W)


3
Odwrotnie do twojego wniosku, powiedziałbym również, że jeśli ani P (S), ani P (W) nie są znane, to zarówno P (S | W), jak i P (W | S) cierpią z powodu tego samego frustrującego braku użyteczności. Nie mam jeszcze jasnego obrazu tego, co można powiedzieć, jeśli znany jest dokładnie jeden z P (S) i P (W).
Don Hatch,

P(W)=0,5

1
Tak, to wygląda dobrze i wydaje się, że informacja jest żałośnie niewystarczająca, nawet biorąc pod uwagę to. Muszę powiedzieć, że za każdym razem, gdy zaczynam myśleć o tym, jakie informacje mogę wyodrębnić tylko z P (W | S) lub tylko P (S | W), nawet dodając P (W) lub cokolwiek innego, w końcu myślę „dlaczego, u licha, jestem Zastanawiam się nad tym, dlaczego dali mi tylko te wartości procentowe? Po prostu pokaż mi cały stół .
Don Hatch,

3

To zależy od tego, co uważa się za przydatne.

P(S|W)>P(S|M)

Z drugiej strony, jeśli zastanawiasz się, dlaczego historie osób, które przeżyły, pochodzą głównie od kobiet, to stwierdzenie 2 wyjaśniłoby to, czyniąc stwierdzenie 2 użytecznym nawet przy braku innych informacji.

Nie mogę wymyślić niczego, co oświadczenie 1 byłoby przydatne poza kontekstem. Z pewnością nie mówi nic o priorytecie, jakim jest ratowanie kobiet, w porównaniu do czegokolwiek innego. Jedyne, co mówi mi 1, to to, że każę powiedzieć „powiedz mi więcej”.


0

Na powierzchni (lub w oderwaniu od rzeczywistości) oba stwierdzenia wydają się równie bezużyteczne dla celu państwa. Jednak biorąc pod uwagę kontekst, drugie stwierdzenie jest zdecydowanie bardziej przydatne.

Oświadczenie 2

Zobaczmy, co możemy wyciągnąć z drugiego wyrażenia. Stosunek kobietw wśród wszystkich zachowało się:

w=px/(px+(1-p)z)
gdzie p - stosunek kobiet wśród pasażerów, x i zsą prawdopodobieństwem przetrwania kobiet i mężczyzn. Mianownik to całkowity wskaźnik przeżycia.

Testujemy hipo H.0:x>z

Napiszmy równanie, aby uzyskać niezbędne warunki H.0:

(1-w)px=w(1-p)z
x=w(1-p)z/((1-w)p)
Dla H.0 do trzymania mamy:
x=w(1-p)z/((1-w)p)>z
w(1-p)>(1-w)p
0,9(1-p)>0,1p
1-p>p/9
p<0,9

Tak więc, dla twojej hipotezy, że kobiety miały większe szanse na przeżycie, wystarczy sprawdzić, czy wśród pasażerów było mniej niż 90% kobiet. Jest to zgodne z twoim założeniem 2, co wydaje się implikowaćp1/2). Dlatego oświadczam, że to stwierdzenie 2 prawie wszystko zapewnia, że ​​kobiety miały większe szanse na przeżycie, tj. Jest to całkiem przydatne dla twojego celu.

Oświadczenie 1

Pierwsze stwierdzenie jest naprawdę bezużyteczne w oderwaniu, ale ma ograniczone zastosowanie w kontekście. Jeśli udajemy, że nic nie wiemy o tym wydarzeniu, to mówimy tox=0,9 tells us nothing about z, and whether x>z?

However, from that little that I know about the event - I haven't seen the movie - it seems unlikely that xz. Why?

We know from Assumption 2 that p1/2, so the total survival rate is px+(1p)z. If we assume that xz and p1/2 we get

px+(1p)zx=0.9
Innymi słowy 90% wszystkich pasażerów przeżyło, co nie jest dla mnie prawdziwe. Czy zrobiliby film i rozmawiali o nim przez 100 lat, gdyby 90% pasażerów przeżyło? Tak musi byćx>>z and less than half of passengers made it.

Wniosek

Powiedziałbym, że oba stwierdzenia potwierdzają Twoją hipotezę, że kobiety miały większe szanse na przeżycie niż mężczyźni, ale Oświadczenie 1 robi to raczej słabo, podczas gdy Oświadczenie 2 w połączeniu z założeniami prawie na pewno ustanawia twoje hipo jako fakt.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.