Prawdopodobieństwo, że pięcioro dzieci w tej samej klasie będzie miało to samo imię

Na forach z imionami dla dzieci potencjalni rodzice cały czas powtarzają swoją wersję „Strachu przed Jennifer”: „Nie chcę, aby moje dziecko było jednym z 5 w jego klasie z jego imieniem”. Rzecz w tym, że żadna nazwa nie jest już tak podobna do popularności, a nawet u szczytu szaleństwa Jennifer nie dostałeś pięciu z nich w klasie. Chciałbym dla tych rodziców odpowiedzieć na pytanie, jak mało prawdopodobne byłoby takie powtórzenie imienia.

Korzystając z obszernych danych na temat nazwiska dziecka (Social Security Administration ) ( https://www.ssa.gov/oact/babynames/limits.html ), ktoś może mi powiedzieć, jak obliczyć szanse klasy podstawowej w USA na pięć dzieci o tym samym imieniu? (Dla uproszczenia, przez „to samo imię” rozumiem tę samą pisownię, a przez „klasę szkolną” mam na myśli, że wszystkie dzieci urodziły się w tym samym roku.) Nie określam wielkości klasy, ale zdecydowanie powinna ona być większa niż 4 . :-)

probability combinatorics

— JPmiaou
źródło

Wpisy o imionach dzieci to powracający temat na blogu Andrew Gelmana. W żadnym z postów, które znalazłem na jego stronie, nie omawia on twojego konkretnego pytania. Odsyła do „bloga z imionami dla dzieci”, na którym możesz mieć więcej szczęścia w uzyskiwaniu odpowiedzi. andrewgelman.com/2005/09/07/baby_name_blog

— Mike Hunter

Myślę, że możesz połączyć coś razem przy użyciu rozkładu wielomianowego z prawdopodobieństwem sukcesu, powiedzmy, pierwszych dwudziestu pierwszych nazw wyodrębnionych z danych spisu powszechnego, takich jak ten .

— Antoni Parellada,

Czy SSA zapewnia dane o liczbie dzieci urodzonych z imieniem? Znajduję tylko informacje o stopniach, które oczywiście odrzucają przydatne informacje.

— Sycorax mówi Przywróć Monikę

@AntoniParellada Myślę, że rzeczywistość sytuacji jest jeszcze bardziej subtelna: ponieważ amerykański system szkolny jest wysoce podzielony według dochodów i rasy, myślę, że statystyki krajowe będą słabo odpowiadać faktycznym klasom.

— Sycorax mówi Przywróć Monikę

Kiedy byłem uczniem (małej) szkoły podstawowej, mieliśmy trzy dzieci w bardzo małej klasie (myślę, że łącznie chłopcy i dziewczęta mieli około 14 lat). Jeden rok połączyliśmy z rokiem powyżej, aby stworzyć jedną pełnowymiarową klasę ... i dostaliśmy czwartego Johna. Teraz John był wtedy dość powszechny, ale nie tak powszechny. (Pod względem pierwotnego wydania trzy byłyby prawie tak denerwujące jak pięć). Szansa na wielokrotne powielenie określonej nazwy byłaby bardzo niska, ale szansa, że niektóre nazwy pojawią się wiele razy, będzie znacznie wyższa.

— Glen_b

Odpowiedzi:

Wszystkie dane można znaleźć tutaj . Każda wartość w tabeli reprezentuje prawdopodobieństwo, że biorąc pod uwagę 25-osobową próbkę z tego miejsca i roku urodzenia, 5 z nich będzie miało wspólną nazwę.

Metoda : Użyłem dwumianowego pliku PDF przy każdym nazwisku, aby znaleźć prawdopodobieństwo, że każda klasa 25-osobowa będzie miała 5 osób o wspólnej nazwie:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

{P.}_{n} (5 + k ja re s s h za r mi n za m mi) = \sum_{\forall n za m mi s} \sum_{k = 5}^{n} (\binom{n}{k}) p_{ja}^{k} (1 - p_{ja})^{n - k}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

$P(\bigcup A_i) \approx \sum P(A_i)$

Aktualizacja: jak wiele osób zauważyło, istnieje znaczna rozbieżność w czasie i pomiędzy stanami. Więc uruchomiłem ten sam program, na podstawie STATE BY STATE i z czasem. Oto wyniki (ogólnokrajowe prawdopodobieństwo jest czerwone, poszczególne stany są czarne):

Co ciekawe, Vermont (mój stan ojczysty) od kilku dziesięcioleci jest jednym z najbardziej prawdopodobnych miejsc, w których może się to zdarzyć.

— David C.
źródło

Czy jest szansa, że mógłbyś wyjaśnić, skąd masz te liczby? Nie musisz go zbytnio głupiwać - mam licencjat z matematyki i wiem, gdzie szukać rzeczy - ale naprawdę chciałbym poznać rodzaj rozumowania, który faktycznie prowadzi do prawdopodobieństwa (zamiast tego zniechęconych westchnień).

— JPmiaou

Zakłada się, że nazwy są podawane losowo z tymi samymi prawdopodobieństwami , co jest po prostu nieprawdą . Doświadczenie z życia pokazuje również, że jest o wiele więcej zajęć z dziećmi o tych samych nazwach niż 1 na 200!

— Tim

Otrzymuję nieco inne wyniki, ale są blisko. Nie warto jednak o tym dyskutować, ponieważ geograficzne i czasowe zróżnicowanie wyników jest ogromne. Odpowiedź zmieniła się o dwa rzędy wielkości od 1910 r. I różni się o rząd wielkości między stanami. Ponieważ prawie nie ma klas szkoły podstawowej z całych Stanów Zjednoczonych, model losowej selekcji z krajowej listy nazwisk jest nieodpowiedni.

— whuber

(1) Spójrz na pozostałe lata w pobranym pliku krajowym. (2) Spójrz na pliki stanu dostępne na tej samej stronie.

— whuber

Tak, wykres prawdopodobieństwa w czasie jest dramatyczny: zaczął gwałtownie spadać do 1980 roku. Ale zróżnicowanie stanu jest naprawdę bardzo duże, jak można się spodziewać: nazwy różnią się geograficznie i silnie grupują się według pochodzenia etnicznego, dochodów i innych czynników demograficznych. (+1 za twoje rozszerzone dochodzenie w sprawie zmian stanu i czasu, BTW.)

— whuber

zobacz następujący skrypt Python dla Python2.

Odpowiedź jest inspirowana odpowiedzią Davida C.

Moja ostateczna odpowiedź brzmiałaby: prawdopodobieństwo znalezienia co najmniej pięciu Jacobów w jednej klasie, przy czym Jacob jest najbardziej prawdopodobną nazwą według danych z https://www.ssa.gov/oact/babynames/limits.html „Dane krajowe „od 2006 r.

Prawdopodobieństwo oblicza się zgodnie z rozkładem dwumianowym, przy czym prawdopodobieństwo Jacoba jest prawdopodobieństwem sukcesu.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Max. prawdopodobieństwo dla co najmniej pięciorga dzieci o tym samym nazwisku spośród 25: 4.7e-07 dla imienia Jacob

Max. prawdopodobieństwo dla co najmniej pięciorga dzieci o tym samym nazwisku z 50: 1.6e-05 dla imienia Jacob, oczywiście.

Max. prawdopodobieństwo dla co najmniej pięciorga dzieci o tym samym nazwisku na 100: 0,00045 dla imienia Jacoba, oczywiście.

Współczynnik 10 taki sam jak w przypadku Davida C. Dzięki. (Moja odpowiedź nie sumuje wszystkich nazwisk, należy omówić)

— Feinmann
źródło

Ta odpowiedź nie wydaje się odpowiadać na pytanie, czy jakieś imię pojawia się pięć lub więcej razy w klasie.

— whuber

@feinmann Uważam, że sumowanie wszystkich nazwisk jest właściwe, ponieważ prawdopodobieństwo posiadania dwóch lub więcej zestawów 5 osób o tej samej nazwie w jednej klasie jest prawie zerowe i jest nieistotne dla wszystkich celów praktycznych. To znaczy, zgodnie z zasadą włączenia / wyłączenia , jeśli zlekceważymy tę możliwość, to

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

Nie, nie odpowiedziałeś na pytanie, które właśnie sformułowałeś. Szansa, że jakieś imię pojawi się pięć lub więcej razy, jest znacznie większa niż maksymalna szansa, że dane imię pojawi się pięć lub więcej razy.

— whuber

Jak wskazuje @whuber, „5 Jacobs” jest słabszym argumentem niż „5 z jakiegoś imienia”, ale i tak może być przydatne w dyskusjach nad imionami dzieci: „Oto prawdopodobieństwo pięciorga dzieci o najpopularniejszym nazwisku. używając najpopularniejszej nazwy, więc Twoje prawdopodobieństwo jest jeszcze mniejsze ”.

— JPmiaou,

To nie jest dokładnie , ponieważ możliwości nie wykluczają się wzajemnie: możesz mieć 5 lub więcej Thomazów i 5 lub więcej Richardsów ( a może nawet 5 lub więcej Henrysów) w jednej klasie. Więc to górna granica. @DavidC twierdzi w komentarzu, że takie zdarzenia mają znikome prawdopodobieństwo.

— Scortchi - Przywróć Monikę