Sukcesy K w testach Bernoulliego lub eksperymentie z filmem George'a Lucasa

Czytam teraz „Drunkard's Walk” i nie mogę zrozumieć z tego jednej historii.

Oto jest:

Wyobraź sobie, że George Lucas kręci nowy film Gwiezdne wojny, a na jednym rynku testowym postanawia przeprowadzić szalony eksperyment. Wydaje identyczny film pod dwoma tytułami: „Star Wars: Episode A” i „Star Wars: Episode B”. Każdy film ma własną kampanię marketingową i harmonogram dystrybucji, z odpowiednimi szczegółami identycznymi, z tym wyjątkiem, że zwiastuny i reklamy jednego filmu mówią „Episode A”, a te dla drugiego „Episode B”.

Teraz robimy z tego konkurs. Który film będzie bardziej popularny? Powiedzmy, że patrzymy na pierwszych 20 000 filmowców i nagrywamy film, który postanowili obejrzeć (ignorując zagorzałych fanów, którzy pójdą do obu, a następnie nalegają, aby między nimi były subtelne, ale znaczące różnice). Ponieważ filmy i ich kampanie marketingowe są identyczne, możemy matematycznie modelować grę w ten sposób: Wyobraź sobie, że ustawiasz wszystkich widzów w rzędzie i rzucasz monetą dla każdego z nich z kolei. Jeśli moneta wyląduje głową do góry, zobaczy odcinek A; jeśli moneta wyląduje, to Epizod B. Ponieważ moneta ma jednakową szansę na pojawienie się w obu kierunkach, możesz pomyśleć, że w tej eksperymentalnej wojnie kasowej każdy film powinien być prowadzony przez około połowę czasu.

Ale matematyka losowości mówi inaczej: najbardziej prawdopodobna liczba zmian w potencjale wynosi 0, a jest 88 razy bardziej prawdopodobne, że jeden z tych dwóch filmów poprowadzi wszystkich 20 000 klientów, niż, powiedzmy, wiodący nieustannie huśta się „

Prawdopodobnie błędnie przypisuję to prostemu problemowi z próbami Bernoulliego i muszę powiedzieć, że nie rozumiem, dlaczego lider nie widzi średnio! Czy ktoś może wyjaśnić?

probability bernoulli-distribution

— andreister
źródło

Odpowiedzi:

Oto kod R do symulacji eksperymentu George'a Lucasa:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

Po uruchomieniu otrzymujemy takie zdjęcia:

wprowadź opis zdjęcia tutaj

gdzie różnica w sprzedanych biletach między A i B jest na osi y.

Następnie uruchamiamy takich symulowanych eksperymentów George Lucas. Dla każdego eksperymentu obliczamy odsetek czasu spędzonego , tj. Odsetek widzów ustawionych w kolejce, dla których liczba biletów sprzedanych do A jest większa lub równa liczbie biletów sprzedanych do B. Intuicyjnie powiedzieć, że proporcja ta powinna wynosić w przybliżeniu . Oto histogram wyników: $10,000$ $\geq 0$ $1/2$

wprowadź opis zdjęcia tutaj

$1/2$ $1/2$ $1/2$ $0$ $1$

$\mbox{Beta}(1/2,1/2)$ $0$

Kod R dla badania symulacyjnego to

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

— MånsT
źródło

Dzięki! Zainstalowałem R i chciałbym powtórzyć wszystkie twoje kroki - jak mogę uruchomić 10 000 symulacji i obliczyć część czasu?

— andreister

@ andreister: Zredagowałem swoją odpowiedź, dodając na końcu kod symulacji. Mam nadzieję, że uznasz to za przydatne!

— MånsT

Dzięki, to bardzo przydatne! Aby upewnić się, że rozumiem te rzeczy, stworzyłem pastebin.com/mtRdsPkP na podstawie twojego kodu - czy możesz jednak flickować?

— andreister

cumsumsumcumsum

i

$i$

i

$i$

(ciąg dalszy) To są informacje, którymi jesteśmy zainteresowani, ponieważ chcemy sprawdzić, czy lider widzi. sumpo prostu zsumuje wszystkie 1 i -1, co daje końcowy wynik po uwzględnieniu wszystkich 20 000 widzów (tj. ostatniego elementu cumsumwektora).

— MånsT

$1/2$ $t$ $t=1$ $3/4$ $t=3$ $t$

$1$ $1$

$20,000$

Jeśli chcesz obliczyć niektóre prawdopodobieństwa, musisz policzyć coś podobnego do kratowych spacerów, które nie przekraczają przekątnej. Istnieje świetna metoda kombinatoryczna, która dotyczy losowych spacerów (i ruchu Browna), które nie przekraczają takiej linii, zwana zasadą odbicia lub metodą odbicia . To jedna z metod określania liczb katalońskich . Oto dwie inne aplikacje:

$A$ $10,200-9,800$ $20,000 \choose 9,800$ $(10,200, 9,800)$ $B$ $B$ $B$ $(9,799, 10,201)$ $(10,200, 9,800)$ $B$ ${20,000 \choose 9,800} - {20,000 \choose 10,201} = {20,000 \choose 9,800} - {20,000 \choose 9,799} = {20,000 \choose 9,800} \frac{401}{10,201}.$ $B$ $(10,200, 9,800),$ $96\%$

$A$ ${20,000 \choose 10,000} \approx 2^{20,000}/\sqrt{10,000 \pi}.$ $A$ $\frac{1}{100 \sqrt{\pi}}$ $\frac{1}{50 \sqrt{\pi}} \approx 1/89.$ $56$

— Douglas Zare
źródło

Dzięki! Muszę jednak zrozumieć notację, zanim zrozumiem twoją odpowiedź! Co to znaczy „kończy się na 10 200–9 800” itd., Skąd bierzesz te liczby? Jak widzisz tryb 20K?

— andreister

10, 200 - 9, 800

$10,200-9,800$

11, 000 - 9, 000

$11,000-9,000$

10, 001 - 9, 999.

$10,001-9,999.$

20, 000

$20,000$

0

$0$

0

$0$

p

$p$

0

$0$

0

$0$

0

$0$

„jest 88 razy bardziej prawdopodobne, że jeden z dwóch filmów poprowadzi wszystkich 20 000 klientów, niż powiedzmy, że prowadzący nieustannie widzi”

Mówiąc wprost: jeden z filmów zyskuje wczesną przewagę. Musi to zrobić, ponieważ pierwszy klient musi udać się do A lub B. Ten film jest tak samo prawdopodobne, że utrzyma pozycję lidera tak samo, jak stracony.

88 razy bardziej prawdopodobne dźwięki, cóż, mało prawdopodobne, dopóki nie przypomnisz sobie, że idealne huśtanie się jest bardzo nieprawdopodobne. Wykres w odpowiedzi MansT , pokazujący to graficznie, jest fascynujący, prawda?

NA BOK: Osobiście uważam, że będzie to ponad 88 razy - z powodu <buzzword-alert>marketingu wirusowego </buzzword-alert>. Każda osoba zapyta innych ludzi, co zobaczyli, i jest bardziej prawdopodobne, że odwiedzi ten sam film. Zrobią to nawet podświadomie: ludzie częściej dołączają do długiej kolejki, aby zobaczyć coś. To znaczy, jak tylko losowość pierwszych klientów stworzy lidera, psychologia człowieka utrzyma go jako lidera :-).

— Darren Cook
źródło