Jak prawdopodobne jest, że pochodzę od konkretnej osoby urodzonej w 1300 roku?


26

Innymi słowy, w oparciu o następujące, czym jest p?

Aby uczynić to problemem matematycznym niż antropologicznym lub nauk społecznych i uprościć problem, załóżmy, że partnerzy są wybierani z jednakowym prawdopodobieństwem w całej populacji, z tym wyjątkiem, że rodzeństwo i pierwsi kuzyni nigdy nie łączą się w pary, a partnerzy są zawsze wybierani z tego samego generacja.

  • n1 - początkowa populacja
  • g - generacje liczb.
  • c - średnia liczba dzieci na parę. (W razie potrzeby załóż, że każda para ma dokładnie taką samą liczbę dzieci.)
  • z - odsetek osób, które nie mają dzieci i które nie są uważane za część pary.
  • n2 - populacja w ostatnim pokoleniu. ( Należy podać albo albo , i (myślę) drugi można obliczyć.)n2)z
  • p - prawdopodobieństwo, że ktoś w ostatnim pokoleniu będzie potomkiem konkretnej osoby w początkowym pokoleniu.

Te zmienne można oczywiście zmienić, pominąć lub dodać do nich. Zakładam dla uproszczenia, że i nie zmieniają się z czasem. Zdaję sobie sprawę, że otrzymamy bardzo przybliżoną ocenę, ale jest to punkt wyjścia.doz

Część 2 (sugestia do dalszych badań):

Jak można uznać, że wiązania nie są wybierane z globalnie jednolitym prawdopodobieństwem? W rzeczywistości partnerzy są bardziej narażeni na ten sam obszar geograficzny, pochodzenie społeczno-ekonomiczne, rasę i pochodzenie religijne. Bez badania faktycznych prawdopodobieństw, w jaki sposób miałyby zastosowanie zmienne dla tych czynników? Jak to by było ważne?


2
czy to jest zadanie domowe? W przeciwnym razie, jaki jest kontekst?
David LeBauer

1
@John: Dzięki za edycję. Uważam, że panuje powszechna zgoda (na tej stronie i na innych), że nie edytujemy pytań, aby dodać homeworktag. Wszystkim zaangażowanym lepiej jest pozwolić PO to zrobić. Ten meta wątek może Cię zainteresować, jeśli jeszcze go nie widziałeś.
kardynał

Jestem po prostu ciekaw. Nie jestem studentem i to nie jest praca domowa. Żartowałem tylko o dodatkowym kredycie, chociaż widzę, że oznaczałoby to zadanie domowe.
xpda

3
Aby uzyskać początkowy sens odpowiedzi, rozważ część populacji, która nie jest spokrewniona z danym przodkiem według pochodzenia. Początkowo dla populacji . Przy losowym mieszaniu jest zwiększane do kwadratu po każdym pokoleniu. Powiedzmy, że w początkowej populacji oznacza to, że jest prawie na pewno po pokoleniach (około - lat). f = ( n - 1 ) / n n ffaf=(n-1)/nnfa f 0 32 600 800n=108fa032600800
whuber

1
Uważam, że istnieją badania naukowe dotyczące prawdopodobieństwa wyginięcia niepowtarzalnego nazwiska. Chociaż nie jest to identyczne z postawionym problemem, może dostarczyć ciekawych informacji (ale niestety nie pamiętam, skąd się bierze). Co dziwne, wierzę, że te badania doprowadziły do ​​pewnego wglądu w matematykę stojącą za rozprzestrzenianiem się chorób zakaźnych ...
Michael McGowan

Odpowiedzi:


13

Ponieważ na to pytanie otrzymujemy odpowiedzi od astronomicznie małych do prawie 100%, chciałbym zaoferować symulację, która posłuży jako punkt odniesienia i inspiracja do ulepszonych rozwiązań.

Nazywam te „wątkami płomieni”. Każdy dokumentuje rozproszenie materiału genetycznego w populacji, który rozmnaża się w odrębnych pokoleniach. Wykresy to układy cienkich pionowych segmentów przedstawiających ludzi. Każdy wiersz reprezentuje pokolenie, a początkowy u góry. Potomkowie każdego pokolenia są w rzędzie bezpośrednio pod nim.

Na początku tylko jedna osoba w populacji o wielkości jest oznaczona i wykreślona na czerwono. (Trudno to dostrzec, ale zawsze są one narysowane po prawej stronie górnego rzędu.) Ich bezpośredni potomkowie są również narysowani na czerwono; pojawią się w całkowicie losowych pozycjach. Inni potomkowie są wykreślani jako biały. Ponieważ liczebność populacji może być różna dla różnych pokoleń, do wypełnienia pustej przestrzeni używana jest szara ramka po prawej stronie.n

Oto tablica 20 niezależnych wyników symulacji.

Wykresy płomieni

Czerwony materiał genetyczny ostatecznie wymarł w dziewięciu z tych symulacji, pozostawiając ocalałych w pozostałych 11 (55%). (W jednym scenariuszu, u dołu po lewej, wygląda na to, że cała populacja ostatecznie wymarła.) Jednak wszędzie tam, gdzie byli ocalali, prawie cała populacja zawierała czerwony materiał genetyczny. Dowodzi to, że szansa losowo wybranej osoby z ostatniego pokolenia zawierającego czerwony gen wynosi około 50%.

Symulacja polega na losowym określeniu przeżywalności i średniego wskaźnika urodzeń na początku każdego pokolenia. Survivorship pochodzi z rozkładu Beta (6,2): średnio 75%. Liczba ta odzwierciedla zarówno śmiertelność przed dorosłością, jak i osoby nieposiadające dzieci. Współczynnik urodzeń jest pobierany z rozkładu gamma (2.8, 1), więc wynosi średnio 2.8. Rezultatem jest brutalna historia o niewystarczającej zdolności reprodukcyjnej do zrekompensowania ogólnie wysokiej śmiertelności. Jest to skrajnie pesymistyczny model najgorszego przypadku - ale (jak zasugerowałem w komentarzach) zdolność populacji do wzrostu nie jest niezbędna. W każdym pokoleniu liczy się tylko proporcja czerwieni w populacji.

Aby modelować reprodukcję, bieżąca populacja jest przerzedzana do ocalałych poprzez pobranie prostej losowej próbki o pożądanej wielkości. Ci, którzy przeżyli, są losowo sparowani (żaden dziwny ocalały pozostały po parowaniu nie może się rozmnażać). Każda para wytwarza liczbę dzieci pobranych z rozkładu Poissona, którego średnią jest współczynnik urodzeń pokolenia. Jeśli jedno z rodziców zawiera czerwony znacznik, wszystkie dzieci go dziedziczą: modeluje to ideę bezpośredniego zejścia przez jednego z rodziców.

Ten przykład zaczyna się od populacji 512 i uruchamia symulację przez 11 pokoleń (12 wierszy łącznie z początkiem). Odmiany tej symulacji zaczynające się od zaledwie i aż 2 14 = 16 , 384 osób, wykorzystujących różne wskaźniki przeżywalności i liczby urodzeń, wszystkie wykazują podobne cechy: do końca log 2 ( n ) pokoleń (dziewięć w tym przypadku), istnieje szansa 1/3, że cała czerwień umarła, ale jeśli nie, to większość populacji jest czerwona. W ciągu dwóch lub trzech kolejnych pokoleń prawie cała populacja jest czerwona i pozostanie czerwona (w przeciwnym razie populacja całkowicie wymrze).n=8214=16,384log2(n)

Nawiasem mówiąc, przeżycie w wysokości 75% lub mniej w pokoleniu nie jest dziwaczne. Pod koniec 1347 r. Szczury zarażone dżumą dymienną po raz pierwszy przedostały się z Azji do Europy; w ciągu następnych trzech lat około 10–50% populacji europejskiej zmarło w wyniku tego. Zaraza pojawiła się prawie raz na pokolenie przez setki lat później (ale zwykle nie z tą samą ekstremalną śmiertelnością).


Kod

Symulacja została stworzona za pomocą Mathematica 8:

randomPairs[s_List] := Partition[s[[Ordering[RandomReal[{0, 1}, Length[s]]]]], 2];

next[s_List, survive_, nKids_] := Flatten[ConstantArray[Max[#], 
   RandomVariate[PoissonDistribution[nKids]]] & /@ 
   randomPairs[RandomSample[s, Ceiling[survive Length[s]]]]] 

Partition[Table[
   With[{n = 6}, ArrayPlot[NestList[next[#, RandomVariate[BetaDistribution[6, 2]], 
        RandomVariate[GammaDistribution[3.2, 1]]] &, 
        Join[ConstantArray[0, 2^n - 1], ConstantArray[1, 1]], n + 2], 
     AspectRatio -> 2^(n/3)/(2 n), 
     ColorRules -> {1 -> RGBColor[.6, .1, .1]},  
     Background -> RGBColor[.9, .9, .9]]
    ], {i, 1, 20}
   ], 4] // TableForm

1
Myślę, że takie modelowanie może być najlepszym podejściem. Jest to o wiele prostsze i bardziej zabawne (dla mnie) niż matematyka i powinno znacznie ułatwić wprowadzenie czynników ograniczających wybór partnera. Czy masz jakieś zalecenia, zastrzeżenia lub inne porady, zanim się nad tym zastanowię?
xpda

3
@xpda Rozwiązania matematyczne zapewnią wgląd w to, co ważne, a co nie. Na przykład pokażą, że niekoniecznie musisz modelować ogromne populacje. Wskażą także rolę, jaką odgrywa zmienność, którą trudniej jest analizować i która wysuwa się na pierwszy plan w symulacji.
whuber

1
@whuber Czy uruchomiłeś symulację w Mathematica? Czy miałbyś coś przeciwko opublikowaniu kodu?
zakładano, że jest nietypowy

1
@Max Kod jest teraz aktywny. Przepraszam za brak komentarzy. Po uruchomieniu każdego randomPairsi nextna danych testowych, ich funkcje powinny stać się widoczne. Zwróć uwagę na użycie NestListiteracji nextw celu uzyskania wielu generacji.
whuber

3

Co się stanie, gdy spróbujesz policzyć przodków?

Masz 2 rodziców, dziadków, 4, 8 pradziadków ... Więc jeśli wrócić pokolenia wtedy masz 2 n przodków. Załóżmy, że średnia długość generacji wynosi 25 lat. Potem było około 28 pokoleń od 1300 roku, co daje nam około 268 milionów przodków w tym czasie.n2n2528

To jest właściwe boisko, ale z tym obliczeniem jest coś nie tak, ponieważ populacja Ziemi w 1300 r. Nie mieszała się równomiernie, a my ignorujemy małżeństwa w waszym rodowym „drzewie”, tzn. Podwójnie liczymy niektórych przodków.

Myślę jednak, że może to prowadzić do prawidłowej górnej granicy prawdopodobieństwa, że ​​losowo wybrana osoba w 1300 r. Jest twoim przodkiem, przyjmując stosunek do populacji w 1300 r.228


2
Bardzo znaczące, biorąc pod uwagę, że znaczna część populacji była wówczas odizolowana od siebie, więc znacznie mniej było możliwości uniknięcia małżeństw.
dcl

2
Załóżmy więc, że OP pochodzi z angielskiego pochodzenia i około 1300, populacja Anglii wynosiła ponad milion. (Powiedzmy przed wielkim głodem). Jak to zmieni twoją analizę?
dassouki

228268

228/34

2

Im bardziej się cofasz, tym bardziej prawdopodobne jest, że jesteś spokrewniony z osobą, która pomyślnie przekazała swoje geny, które żyły w tym czasie. Spośród 1/4 miliardów przodków, którzy żyli w 1300 roku, wielu z nich pojawiłoby się setki (jeśli nie tysiące, miliony) razy w twoim drzewie genealogicznym. Dryf genetyczny i to, ile razy jesteśmy bezpośrednio z kimś związani, są prawdopodobnie bardziej istotne dla różnic w naszym kodzie genetycznym niż to, kim byli nasi przodkowie.


0

Prawdopodobieństwo wynosi = 1-z, każdy potomek w tym problemie jest powiązany z przodkami powyżej. Niezależnie od tego, jaki jest początkowy wskaźnik reprodukcji (1-z), istnieje prawdopodobieństwo, że będziesz potomkiem kogoś w początkowej populacji. Jedynie niepewne jest prawdopodobieństwo, jakie są szanse na przeżycie w populacji końcowej.

Zgadzam się z odpowiedzią Erada, chociaż myślę, że teraz odpowiada ona na pytanie, które nie zostało zadane - a mianowicie jakie jest prawdopodobieństwo, że żyjesz, biorąc pod uwagę pewne znane ograniczenia reprodukcyjne i populacji w stosunku do twoich nosicieli.


n1zzsol

Ponadto, aby wyjaśnić, pytanie polega na znalezieniu prawdopodobieństwa, że konkretna osoba w ostatnim pokoleniu pochodzi od konkretnej osoby w początkowym pokoleniu.
xpda,

1
AAAZA

@ Cipito Wipa Descartesa , ergo sum zdecydowanie sugeruje, że prawdopodobieństwo, że żyję, biorąc pod uwagę wszelkie ograniczenia na moich przodkach, wynosi 100% :-)
whuber

@ whuber masz rację. Myślę, że mówimy o tym samym problemie. Chciałem wyjaśnić, że nie szukam prawdopodobieństwa, że ​​ktoś w pierwszym pokoleniu będzie miał potomka żyjącego w ostatnim pokoleniu. Obawiałem się, że Wipa wymyślił (1-z) na odpowiedź.
xpda

0

p>(1z)×1n1(1z)2=2n1

Wyjaśnienie odpowiedzi:
Biorąc pod uwagę konkretną osobę dzisiaj, jest pewne, że są potomkami co najmniej 2 osób w 1300 roku.

Przy wyborze konkretnej osoby w 1300 roku istnieje (1-z) szansa, że ​​osoba ta nigdy się nie powiela, a drugi termin dotyczy liczby „par rodziców” i prawdopodobieństwa, że ​​dana osoba będzie spokrewniona z tą parą (1 / liczba par).

p>2n1


nk+1=nk(1z)×c2=n1(1z)kck2k







p>2/360,000,000=5.56×109

Dzięki za przeczytanie, Erad


doz

Na podstawie pierwotnego pytania powyżej: c = średnia liczba dzieci na parę, z = odsetek osób, które nie mają dzieci
Erad

2
1/n1/360M109

3
360,000,000/(2.66×10249)1

1
108

0

To bardzo interesujące pytanie, ponieważ wymaga od nas matematycznego rozwiązania fraktala. Takich jak słynna gra życia .

p1=2n1limkpk=(1z)

pkk

p1=2n1

p2=relatives×2n2+non.relatives×4n2
relatives=(c2)×nc(n2)=c1n1
p3=immediate.relatives×4n3+cousins×6n3+non.relatives×8n3

Z każdym pokoleniem prawdopodobieństwo bycia spokrewnionym z kimś w początkowej populacji będzie niewątpliwie rosło, ale w coraz mniejszym tempie. Wynika to z faktu, że rośnie prawdopodobieństwo narysowania „krewnych” pochodzących z tego samego lub podobnego drzewa.

Wykorzystajmy pochodzenie etniczne jako przykład. Powiedzmy, że wiemy na pewno, że ktoś jest w 100% rasy białej. W 28 pokoleniu najprawdopodobniej jest związany ze znaczną częścią populacji rasy białej w 1300 r. (Jak pokazano w symulacji @whuber). Powiedzmy, że poślubia kogoś, kto jest w 100% innej narodowości. Ich potomstwo będzie powiązane z około dwukrotnie większą liczbą osób, z którymi są powiązane od 1300.

Inną interesującą myślą jest to, że biorąc pod uwagę, że rasa ludzka (homosapien) rozpoczęła się od około 600 osób w Afryce, najprawdopodobniej jesteśmy genetyczną permutacją wszystkich z nich, którzy pomyślnie się połączyli.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.