Biorąc pod uwagę, że dzisiaj jest dzień przestępny, czy ktoś wie, że istnieje prawdopodobieństwo, że się urodzi w dniu przestępnym?
Biorąc pod uwagę, że dzisiaj jest dzień przestępny, czy ktoś wie, że istnieje prawdopodobieństwo, że się urodzi w dniu przestępnym?
Odpowiedzi:
Pewnie. Bardziej szczegółowe wyjaśnienie znajduje się tutaj: http://www.public.iastate.edu/~mlamias/LeapYear.pdf .
. Ale w istocie autor stwierdza: „Istnieje 485 lat przestępnych w 2 tysiąclecia tak, to w 2 tysiąclecia, istnieją Wszystkich dzień z tych dni, 29 lutego wystąpi w. 485 z nich (w latach przestępnych), więc prawdopodobieństwo wynosi 485 / 730.485 = 0,0006639424 "
Aby dokładnie przewidzieć to prawdopodobieństwo za pomocą statystyk, dobrze byłoby wiedzieć, gdzie ma miejsce poród.
Ta strona http://chmullig.com/2012/06/births-by-day-of-year/ ma wykres pokazujący podzbiór liczby urodzeń dziennie (pomnożenie 29. przez 4, co jest niepoprawne i niepożądane w przypadku tego pytania, ale zawiera również linki do oryginalnych danych i daje przybliżone wskazanie tego, czego można się spodziewać) w Stanach Zjednoczonych. Zakładałbym, że ta krzywa nie jest prawdziwa dla innych krajów, a zwłaszcza dla innych kontynentów. W szczególności półkula południowa i region równikowy mogą wykazywać znaczne pochodzenie na podstawie tych wyników - przy założeniu, że czynnikiem decydującym jest klimat.
Ponadto istnieje kwestia „narodzin do wyboru” (poruszona przez autorów strony http://bmjopen.bmj.com/content/3/8/e002920.full ) - w biedniejszych regionach globu oczekiwałbym innej rozkład urodzeń, po prostu dlatego, że cesarskie cięcie (inne niż nagłe) lub poród indukowany są rzadsze niż w krajach rozwiniętych. To wypacza ostateczny rozkład urodzeń.
Korzystając z danych amerykańskich, zakładając, że ~ 71 milionów urodzeń (przybliżona średnia * 366) i 46.000 urodzeń w dniu 29 lutego, nie korygując rozkładu lat przestępnych w danych, ponieważ dokładny okres nie jest wskazany, dochodzę do prawdopodobieństwa około ~ 0,000648. Jest to nieco poniżej wartości, jakiej można by oczekiwać, biorąc pod uwagę płaski rozkład urodzeń, a zatem zgodnie z ogólnym wrażeniem wynikającym z wykresu.
Test istotności tych przybliżonych ocen pozostawię zmotywowanemu czytelnikowi. Biorąc jednak pod uwagę, że 29. (choć nieskorygowany - rok 2000 wprowadza dane poniżej przeciętnej stronniczości) wyniki są niskie, nawet w przypadku już niskich standardów lutowych, zakładam stosunkowo dużą pewność, że hipotezę zerową o równym rozkładzie można odrzucić.
Myślę, że odpowiedź na to pytanie może być tylko empiryczna. Każda teoretyczna odpowiedź byłaby błędna bez uwzględnienia zjawisk związanych z wyborem urodzin, sezonowością itp. Z kwestiami teoretycznymi nie można sobie poradzić.
Ze względu na prywatność trudno jest znaleźć dane urodzinowe w USA. Jest jeden anonimowe dane zawarte tutaj . Pochodzi z aplikacji ubezpieczeniowych w USA. Różnica w stosunku do innych raportów, takich jak często cytowany artykuł NYT , polega na tym, że podaje on liczbę urodzeń według daty, a nie prosty ranking dni w roku. Słabym punktem jest oczywiście stronniczość próby, ponieważ pochodzi ona z ubezpieczenia: osoby nieubezpieczone nie są uwzględnione itp.
Według danych w lutym 29 było 325 urodzeń na ogół 481040. Według Roy Murphy próbka obejmuje lata 1981-1994. Obejmuje ona 3 lata przestępne o łącznej długości 14 lat. Bez żadnych zmian prawdopodobieństwo urodzenia wynosiłoby 0,0675% w dniu 29 lutego między 1981 a 1994 rokiem.
Można regulować prawdopodobieństwo, przez co stanowi częstotliwość lat przestępnych, który jest zbliżony do 1/4 ( nie dokładnie, chociaż ), np poprzez pomnożenie tej liczby przez przyjazd do 0,079% oszacowania. W tym przypadku prawdopodobieństwo warunkowe p urodzenia się 29 lutego w roku przestępnym jest powiązane z obserwowaną częstotliwością F o = 325 przez częstotliwość f L = 3 lat przestępnych w próbie: F o = f L / N ⋅ F ⋅ p , gdzie N = 14
Zwykle prawdopodobieństwo lat przestępnym , a tym samym długim okresie średnie prawdopodobieństwo P L od narodzin 29 lut jest: P L = P L ⋅ P ≈ P L ⋅ N
Możesz być zainteresowany warunkowego prawdopodobieństwa być urodzony w dniu 29 lutego zważywszy, że urodziłeś się na roku przestępnym: p = N
Tak więc związek między i p opiera się na kilku założeniach, np. Że prawdopodobieństwo urodzenia w danym roku jest jednolite i nie zmienia się.
Oczywiście ta dyskusja była skoncentrowana na USA. Kto wie, jakie są wzorce w innych krajach.
AKTUALIZACJA: Automatycznie przyjęliśmy, że OP to kalendarz gregoriański. Staje się to jeszcze bardziej interesujące, jeśli weźmiesz pod uwagę różne kalendarze, takie jak kalendarz księżycowy Hijri , gdzie lata przestępne są co około 30 lat.
AKTUALIZACJA 2:
Amitabh Chandra, Harvard University
Jak prawdopodobne jest to, że bardzo osobliwe dni w kalendarzu gregoriańskim: 1 stycznia, 25 grudnia i Deb 29 przypadną losowo jako najpopularniejsze urodziny? Mówię, że jest to bardzo mało prawdopodobne zdarzenie losowe. Dlatego jeszcze ciekawiej jest zobaczyć, co dzieje się w innych kalendarzach, takich jak Hijri.
AKTUALIZACJA 3:
AKTUALIZACJA 4:
d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs
idL = 60; % index of Feb 29
% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days
fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;
fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))
% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on
% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)
WYDAJNOŚĆ:
non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000
h =
1
p =
0
Okładka mojej ulubionej książki zawiera zawsze bardzo istotne dowody przemawiające przeciwko założeniu jednolitego przydziału porodów do dat. Szczególnie, że narodziny w USA od 1970 r. Wykazują na sobie kilka trendów: długi, wieloletni trend, nieokresowy trend, trendy w ciągu tygodnia, trendy w ciągu roku, trendy wakacyjne (ponieważ procedury takie jak cesarskie cięcie sekcja pozwala efektywnie zaplanować datę urodzenia, a lekarze często nie robią tego w święta). W rezultacie prawdopodobieństwo urodzenia się w losowo wybranym dniu w ciągu roku nie jest jednolite, a ponieważ wskaźnik urodzeń zmienia się między latami, nie wszystkie lata są równie prawdopodobne.
Dowodzi to również, że rozwiązanie Asksal, choć jest bardzo silnym konkurentem, jest również niepełne. Niewielka liczba dni przestępnych będzie „skażone” przez cały mecz skutków w grę tutaj, więc oszacowanie Asksal jest również przechwytywanie (zupełnie przez przypadek) efekt day-of-tydzień i długoterminowych trendów wraz z tym 29 lutego efekt. Jakie efekty są i nie są odpowiednie do uwzględnienia, nie są jasno zdefiniowane w pytaniu.
Ta analiza dotyczy tylko Stanów Zjednoczonych, które mają trendy demograficzne, które mogą być zupełnie inne niż w przypadku innych narodów lub populacji. Na przykład wskaźnik urodzeń w Japonii spada od dziesięcioleci. Wskaźnik urodzeń w Chinach jest regulowany przez państwo, co ma pewne konsekwencje dla struktury płci w tym kraju, a tym samym wskaźników urodzeń w kolejnych pokoleniach.
Podobnie analiza Gelmana opisuje tylko kilka ostatnich dziesięcioleci i niekoniecznie jest jasne, że jest to nawet era interesująca dla twojego pytania.
Dla tych, którzy są podekscytowani tego rodzaju rzeczami, materiał na okładce jest obszernie omówiony w rozdziale o procesach gaussowskich.
29 lutego to coroczna data, która jest wielokrotnością 4 .
Jednak lata, które są wielokrotnością 100, ale nie są liczbą 400, nie są uważane za lata przestępne (np .: 1900 nie jest rokiem przestępnym, podczas gdy 2000 lub 1600 to). Dlatego obecnie jest to ten sam wzór co 400 lat.
Zróbmy więc matematykę w przedziale [0; 400 [ :
W okresie 400 lat jest dokładnie 4 x 25 = 100 lat, które są wielokrotnością 4 . Ale musimy odjąć 3 (lata wielokrotności 100, ale nie 400) od 100, i otrzymamy 100-3 = 97 lat.
Teraz musimy pomnożyć 97 przez 366, 97 x 366 = 35502 (liczba dni w roku przestępnym w okresie 400 lat), pozostaje (365 x (400-97)) = 110 595 (liczba dni, które nie są t w roku przestępnym w okresie 400 lat).
Następnie musimy tylko dodać te dwie liczby, aby poznać całkowitą liczbę dni w okresie 400 lat: 110 595 + 35502 = 146 097 .
Na koniec, naszym prawdopodobieństwem jest liczba 29 lutego w okresie 400 lat, więc 97, biorąc pod uwagę, że jest 97 lat przestępnych podzielonych przez całkowitą liczbę dni naszego przedziału:
p = 97/146097 = 0,0006639424492
Mam nadzieję, że jest to właściwe i jasne.
Sądzę, że mieszają się tutaj dwa pytania. Jednym z nich jest „Jakie jest prawdopodobieństwo, że dany dzień będzie 29 lutego?”. Drugi to (a ten faktycznie pytany) „Jakie jest prawdopodobieństwo urodzenia się w dniu przestępnym?”
Zauważyłem, że większość powyższych odpowiedzi rozwiązuje ten problem, obliczając liczbę dni przestępnych w danym okresie. Istnieje prostszy sposób, aby uzyskać odpowiedź, 100% dokładnie, z definicji:
Korzystamy z lat przestępnych, aby dostosować zwykły (365-dniowy) kalendarz do średniego roku tropikalnego (czyli średniego roku słonecznego). Średni rok tropikalny „to czas, w którym Słońce powraca do tej samej pozycji w cyklu pór roku, jak widać z Ziemi” (Wikipedia). Rok tropikalny różni się nieznacznie, ale średni (średni) rok tropikalny wynosi około 365.24667.
Jeśli nasze dni przestępne są prawidłowe, szansa, że losowo wybrany dzień będzie dniem przestępnym, wynosi ((rok tropikalny) - (rok nieskokowy)) / rok tropikalny
Podając przybliżoną liczbę, którą mamy, jest to (365.24667-365) /365.24667 lub 0.24667 / 365.24667 lub 675 na milion (0.0675%).
Dotyczy to jednak losowo wybranego dnia. Wyobrażam sobie, że jest to znacznie wypaczone przez rodziców, którzy wolą nie musieć tłumaczyć swoim dzieciom, że „twoje prawdziwe urodziny przychodzą tylko raz na 4 lata”.
Zapytałem moją siostrę, której dzień urodzin to 29 lutego, a ona powiedziała: „Rezultatem moich własnych badań empirycznych było to, że jest to oczywiście 1,00”.