Pomóż mi obliczyć, ile osób przyjdzie na mój ślub! Czy mogę przypisać procent każdej osobie i dodać ją?


37

Planuję ślub. Chcę oszacować, ile osób przyjdzie na mój ślub. Stworzyłem listę osób i szansę, że będą uczestniczyć w procentach. Na przykład

Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30%

Mam listę około 230 osób z odsetkami. Jak mogę oszacować, ile osób weźmie udział w moim ślubie? Czy mogę po prostu zsumować wartości procentowe i podzielić je przez 100? Na przykład, jeśli zaproszę 10 osób z 10% szansą na przybycie, mogę spodziewać się 1 osoby? Jeśli zaproszę 20 osób z 50% szansą na przyjazd, czy mogę spodziewać się 10 osób?

AKTUALIZACJA: 140 osób przyszło na mój ślub :). Korzystając z opisanych poniżej technik, przewidziałem około 150. Niezbyt odrapany!


43
Nie widzę postaci dla osoby, z którą się żenisz. To najważniejsza ilość.
Nick Cox

6
Użyłem twojej techniki na mój ślub i to zadziałało; przewidywaliśmy około 80 osób i otrzymaliśmy około 85 osób. Zwracam uwagę, że gdy w arkuszu kalkulacyjnym znajdą się wszystkie osoby, możesz użyć tego samego arkusza kalkulacyjnego, aby śledzić rzeczy, do których wysłałeś notatki z podziękowaniami i tak dalej.
Eric Lippert,

2
Istotne: timharford.com/2013/10/guest-list-angst-a-statistic-approach . Ze względu na swoją wartość wybrałem link do osobistego bloga autora, ale artykuł pochodzi z jego kolumny w Financial Times.
Steve Jessop

@EricLippert Próbowałem czegoś podobnego na mój ślub, ale nie miałem tak dobrego sukcesu. W dzień była bardzo silna burza z piorunami i wszyscy <30% w ciągu godziny dojazdy lub więcej nie pokazali się.
OSE

3
@NickCox Również zapomnieli o swoich.
JFA

Odpowiedzi:


32

Zakładając, że decyzje zaproszonych osób o przyjściu na wesele są niezależne, liczbę gości, którzy przyjdą na wesele, można modelować jako sumę losowych zmiennych Bernoulliego, które niekoniecznie mają identyczne prawdopodobieństwo powodzenia. Odpowiada to rozkładowi dwumianowemu Poissona .

XNpi

E(X)=i=1Npi.

Poniższy rysunek pokazuje przykład podziału liczby uczestników na wesele w oparciu o 10000 symulowanych scenariuszy (po prawej) z wykorzystaniem pewnych fałszywych prawdopodobieństw pojawienia się dla 230 zaproszonych osób (po lewej). Kod R użyty do uruchomienia tej symulacji pokazano poniżej; zapewnia przybliżone przedziały ufności.

wprowadź opis zdjęcia tutaj

## Parameters
N      <- 230    # Number of potential guests
nb.sim <- 10000  # Number of simulations

## Create example of groups of guests with same show-up probability
set.seed(345)
tmp    <- hist(rbeta(N, 3, 2), breaks = seq(0, 1, length.out = 21))
p      <- tmp$breaks[-1]    # Group show-up probabilities
n      <- tmp$counts        # Number of person per group

## Generate number of guests by group
guest.mat <- matrix(NA, nrow = nb.sim, ncol = length(p))
for (j in 1:length(p)) {
    guest.mat[, j] <- rbinom(nb.sim, n[j], p[j])
}

## Number of guest per scenario
nb.guests <- apply(guest.mat, 1, sum)

## Result summary
par(mfrow = c(1, 2))
barplot(n, names.arg = p, xlab = "Probability group", ylab = "Group size")
hist(nb.guests, breaks = 21, probability =  TRUE, main = "", xlab = "Guests")
par(mfrow = c(1, 1))

## Theoretical mean and variance
c(sum(n * p), sum(n * p * (1-p)))
#[1] 148.8500  43.8475

## Sample mean and variance
c(mean(nb.guests), var(nb.guests))
#[1] 148.86270  43.23657

## Sample quantiles
quantile(nb.guests, probs = c(0.01, 0.05, 0.5, 0.95, 0.99))
#1%     5%    50%    95%    99% 
#133.99 138.00 149.00 160.00 164.00 

1
Wow, to jest fantastyczne. Co to za symulacja?
Behacad,

4
Jest to symulacja Monte Carlo
QuantIbex

Jak przekształcić „wielkość grupy” w liczbę gości? Po lewej mam figurkę taką jak twoja, ale nie jestem pewien, jak ją zamienić na postać po prawej ...
Behacad

Odbywa się to w wierszach 11–18 kodu podanego w odpowiedzi. W scenariuszu jgeneruję liczbę „pokazów” dla każdej z 20 grup prawdopodobieństwa, stosując rozkład dwumianowy i prawdopodobieństwo pojawienia się tej grupy.
QuantIbex

18

Jak już wspomniano, oczekiwania po prostu się dodają.

Jednak wiedząc, że oczekiwanie nie jest zbyt użyteczne, potrzebujesz również wyczucia prawdopodobnej zmienności wokół niego.

Należy się martwić o trzy rzeczy:

  • zróżnicowanie osobników wokół ich oczekiwań (osoba z 60% szansą na przybycie nie spełnia swoich oczekiwań; zawsze jest powyżej lub poniżej)

  • zależność między ludźmi. Pary, które mogą oboje przyjść, będą albo uczestniczyć, albo nie. Małe dzieci nie będą uczestniczyć bez rodziców. W niektórych przypadkach niektóre osoby mogą uniknąć przyjazdu, jeśli wiedzą, że będzie tam inna osoba.

  • błąd w oszacowaniu prawdopodobieństw. Te prawdopodobieństwa to tylko domysły; możesz rozważyć wpływ nieco różnych domysłów (być może oceny tych liczb przez kogoś innego)

Pierwszy podlega obliczeniom, poprzez normalne zbliżenie lub symulację. Drugi może być symulowany przy różnych założeniach, specyficznych dla ludzi lub przez rozważenie pewnego rozkładu zależności. (Trzeci element jest trudniejszy.)


Edytowane, aby odpowiedzieć na pytania uzupełniające w komentarzach:

Jeśli dobrze rozumiem twoje sformułowania, dla czteroosobowej rodziny masz 50% szans na to, że każda z 4 osób albo nikt nie przyjdzie. Jest to z pewnością oczekiwana liczba 2, ale chciałbyś mieć pojęcie o zmienności wokół oczekiwań, w którym to przypadku prawdopodobnie chcesz zachować rzeczywistą sytuację 50% z 0/50% z 4.

Jeśli możesz podzielić wszystkich na niezależne grupy, dobrym pierwszym przybliżeniem (z dużą ilością takich grup) byłoby dodanie średnich i różnic między niezależnymi grupami, a następnie potraktowanie tej sumy jako normalnej (być może z korektą ciągłości). Bardziej dokładne podejście polegałoby na symulacji procesu lub obliczeniu rozkładu dokładnie za pomocą splotu numerycznego; chociaż oba podejścia są proste, jest to niepotrzebny poziom precyzji dla tej konkretnej aplikacji, ponieważ jest już tak wiele warstw przybliżenia - to tak, jakby powiedzieć wymiary pokoju do najbliższej stopy, a następnie obliczyć, ile farby potrzebujesz do najbliższego mililitra - dodatkowa precyzja jest bezcelowa.

Wyobraźmy sobie (dla uproszczenia), że mieliśmy cztery grupy:

1) grupa A (1 osoba) - 70% szans na uczestnictwo

2) grupa B (1 osoba) - 60% szans na uczestnictwo

3) grupa C (4-osobowa rodzina) - 0: 0,5 4: 0,5 (jeśli ktoś zostanie w domu, nikt nie przyjdzie)

4) grupa D (para 2) - 0: 0,4 1: 0,1 2: 0,5 (tj. 50% szansy na obie plus 10% szansy na dokładnie jedną, np. Jeśli druga ma zobowiązania do pracy lub jest chora)

Następnie otrzymujemy następujące środki i wariancje:

      mean   variance
  A    0.7     0.21
  B    0.6     0.24
  C    2.0     4.0
  D    1.1     0.89

 Tot   4.4     5.34

Zatem normalne przybliżenie będzie w tym przypadku dość przybliżone, ale sugeruje, że więcej niż 7 osób byłoby raczej mało prawdopodobne (rzędu 5%), a 6 lub mniej wystąpiłoby w przybliżeniu w 75-80% przypadków.

[Bardziej dokładnym podejściem może być symulacja procesu, ale w przypadku pełnego problemu, a nie skróconego przykładu, jest to prawdopodobnie niepotrzebne, ponieważ jest już tyle warstw przybliżenia.]


Po uzyskaniu łącznej dystrybucji obejmującej takie zależności grupowe, możesz chcieć zastosować wszelkie źródła ogólnej wspólnej zależności (takie jak trudna pogoda) - lub możesz po prostu ubezpieczyć się od takich zdarzeń, a nawet zignorować je, w zależności od okoliczności .


5
+1 za wspomnienie o zależnościach. Powstają one z przyczyn innych niż relacje międzyludzkie, takich jak warunki pogodowe i warunki podróży. Wiele z nich wywołuje korelacje dodatnie - które poszerzają zakres niepewności. Jeśli dane szacunkowe zostaną wykorzystane do zapewnienia logistyki (posiłki, miejsca itp.), Dokładna ocena zmiany jest cenna. Chociaż w aplikacji ślubnej nie można zrobić nic więcej niż wykształcone domysły, jakościowe zrozumienie tych zjawisk statystycznych może prowadzić do lepszych domysłów.
whuber

@whuber Dobra uwaga na temat innych źródeł zależności, takich jak pogoda. W niektórych okolicznościach takie rzeczy mogą łatwo zatuszować efekty, o których wspomniałem.
Glen_b

Jak mogę łatwo wziąć pod uwagę zależność? Na przykład, jeśli znam parę z dwójką dzieci i oczekuję, że rodzice mają około 50% szansy na przyjazd. Wiem, że jeśli przybędą, przyprowadzą swoje dzieci. Czy można przypisać 50% każdej osobie i zasadniczo założyć, że przyjdą 2 osoby?
Behacad

2
@ Behacad: Jeśli wiesz, że w danej grupie jest to kwestia „wszystko albo nic”, możesz po prostu oszacować prawdopodobieństwo, że grupa przyjdzie jako jedna jednostka i zważyć grupę według liczby osób w niej zawartych. Zgadzam się, że marginesy błędu powinny być również uwzględnione w twoich szacunkach.
Nick Stauner

Dziękuję Ci. Mam mały stolik z procentami i ilością ludzi z tym procentem, ale nie wiem dokładnie, co teraz zrobić. Jakie środki powinienem dodać? Jakie wariancje (100% -52, 90% -21, 80% -34, 70% -16,60% -32,50% -35,40% -25,30% -11,20% -22,10% -15 , 0% -9)
Behacad

5

(Zignoruj ​​mój wcześniejszy komentarz na ten temat - właśnie zdałem sobie sprawę, że mylę oczekiwania z czymś innym.) Biorąc pod uwagę, że zasadniczo próbujesz znaleźć oczekiwanie na liczbę osób, które się pojawią, możesz teoretycznie dodać prawdopodobieństwo każdej osoby pokazującej zrobić to.

01

Daje to jednak tylko oczekiwaną wartość - bez dalszych założeń wydawałoby się trudne oszacowanie takich rzeczy, jak wariancja pojawiających się osób, zwłaszcza że całkiem uczciwie jest założyć, że osoba A pojawiająca się niekoniecznie jest niezależna od osoby B pojawiającej się.

Poza tym, tutaj jest niejasny artykuł BBC.


Dziękuję Ci! Żeby tylko potwierdzić, że jeśli sądzę, że 10 osób ma 10% szansy na przyjście, mogę zgadywać, że na przykład przyjdzie 1 osoba.
Behacad

Teoretycznie tak, ale wydaje się, że trudno jest skonstruować coś bardziej przydatnego (np. Przedziały ufności) bez dalszych założeń.

Dziękuję Ci. Jak mogę uzyskać przedziały ufności?
Behacad

Nie jestem całkowicie pewien z wielu powodów. (Prawdopodobnie musiałbym spędzać więcej czasu na wyszukiwaniu niektórych rzeczy, aby udzielić bardziej szczegółowej odpowiedzi na ten temat.)

4

W przypadku dużych liczb 80% jest tym, czego można oczekiwać. Może to być sytuacja, w której proponowana szczegółowa analiza dodaje tylko błędy do obliczeń.
Na przykład, czy potencjalna frekwencja Marca jest tak naprawdę 1/3 udziału Josepha? A czy Józef ma tak naprawdę 30%, czy może 25%? Dzieje się tak, gdy osiągniesz dużą liczbę, która sprawia, że ​​80% jest ważniejsze niż cała ta analiza. Właśnie wróciłem z wesela. 550 zaproszonych. 452 uczestników. Na potrzeby planowania hali i rozpoczęcia rozmowy z firmą cateringową wstępne szacunki na 440 były w porządku.

Czy mogę zaoferować linię od mojego tosty do pary? „Pamiętaj, że jeśli twoja żona jest szczęśliwa, ale nie jesteś szczęśliwa, nadal jesteś o wiele szczęśliwsza niż wtedy, gdy twoja żona jest nieszczęśliwa, ale jesteś szczęśliwa”.


Dziękuję Ci! Jedną z obaw jest to, że ludzie będą pochodzić z różnych stron iz różnych odległości. Niektóre dość daleko, inne tuż przy ulicy.
Behacad

3
Liczba ta może zależeć od kultury.
Juho Kokkala

@Juho - może być. Jestem w Stanach Zjednoczonych i w moim ostatnim przykładzie był to ślub docelowy dla około połowy zaproszonych, tj. Ślub odbył się w rodzinnym mieście panny młodej. Zastanawiam się, jakie różnice kulturowe wpłynęłyby na frekwencję, ale podejrzewam, że masz rację.
JTP - przeproś Monikę

4
To wspaniały przykład estymatora, który istnieje w teorii, ale wydaje się niezwykły w praktyce (dopóki nie znajdziesz tego rodzaju rzeczy): biorąc pod uwagę dowolny zestaw danych, zwraca z góry określoną liczbę (w tym przypadku 80%). Jest łatwy do obliczenia, bardzo tani (koszty gromadzenia danych można obniżyć do zera) i ma zerową wariancję. Jest to Bayes (dla atomowego przeora) i dopuszczalny. Nadal będą dręczące pytania dotyczące jego stronniczości i spójności, które mogą być trudne do rozwiązania i nie znikną, unikając „szczegółowej analizy”.
whuber

2

Jako statystyk, który właśnie wziął ślub, powiem ci, że JoeTaxpayer ma właściwą odpowiedź. Liczba 80% wydaje mi się trochę wysoka, choć może być dokładna, jeśli większość ludzi jest lokalna (nasza była ślubem docelowym i wylądowaliśmy bliżej 65%).

Niemniej jednak zakładasz dużą zmienność wcześniejszych prawdopodobieństw, które ludzie biorą pod uwagę, myślę, że więcej niż naprawdę istnieje. Zakładając, że nie zapraszasz osób, które aktywnie cię nie lubią, powinieneś założyć, że prawie wszyscy przyjdą, dla których jest w ich zasięgu i nie będą mieli konfliktu (w szerokim znaczeniu), ale przynajmniej 10-20% BĘDĄ mieć coś, co powstrzyma ich przed uczestnictwem. Dla tych, którzy muszą podróżować, zwiększa to wymagany czas i pieniądze, więc liczba 30-35% podróżnych nie będzie uczestniczyć (w zależności od odległości). W przeciwnym razie utrzymuj prawdopodobieństwo na stałym poziomie (nawet jeśli twoi rodzice powiedzą: „och tacy a nie będą lecieć aż do Austin, chcemy je tylko zaprosić ...”). Jeśli masz fajny odbiór, zwłaszcza z otwartym barem, ludzie na ogół nie pominą tego, chyba że będą musieli.

W każdym razie gratuluję ślubu. Jeśli chodzi o prawdopodobieństwo pozostania w związku małżeńskim, zawsze warto przeczytać: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf

:-)


1

Zsumuj wszystkie prawdopodobieństwa, a to spodziewana liczba osób, które przyjdą.

Pii1iPi1i

Oczywiście zakładamy, że to, czy ktoś przyjdzie, czy nie, nie zależy od obecności innych osób. To założenie jest po prostu błędne. Pomyślcie o parach, są bardzo skorelowane.

2×1iPiPi


1

Na mój ślub sporządziłem dwie listy - prawdopodobne, że wezmę udział (80%) i mało prawdopodobne (20%). Niezależnie od jakiejkolwiek bardziej szczegółowej oceny z jakiegokolwiek powodu, przydzieliłem wszystkich zaproszonych do jednej z dwóch grup. Byłem wyłączony przez 2 osoby. N = 1. Czysto heurystyczny.


Czy mogę zapytać? Jaka była ostateczna frekwencja%?
JTP - przeproś Monikę

72% odpowiedziało tak, ale zapominam, ile dni anulowania.
michaelcarniol

0

Zauważam, że nikt nie zauważył, że nie musisz dzielić przez 100. Twoje wartości procentowe mogą być postrzegane jako oczekiwane części osoby, która się pojawi, przy założeniu, że podobnie jak kot Schrödingera, nie dostaniesz części osoby w obecności lub nieobecności, ale stan obecności każdej osoby zostanie całkowicie rozwiązany w momencie zdarzenia.

Ponieważ przedział procentowy waha się od 0% (żadna osoba pokazująca się) do 100% (wszystkie osoby pokazujące się), w dwóch przykładach z udziałem 10 i 20 osób zsumowałeś oczekiwaną wartość dla części każdego osoba, która się pojawi, i dostała numer, którego jednostkami były „ludzie”.

Widoczne równanie w doskonałej odpowiedzi QuantIbex pokazuje, że zsumowanie procentów skutkuje oczekiwaną liczbą osób na imprezie, bez udziału podziału.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.