Wielkość próbki wymagana do ustalenia, który zestaw reklam ma najwyższy współczynnik klikalności

Z zawodu jestem projektantem oprogramowania i pracuję nad projektem dla klienta i chciałbym upewnić się, że moja analiza jest statystycznie wiarygodna.

Zastanów się, co następuje: Mamy n reklam (n <10) i chcemy po prostu wiedzieć, która reklama jest najskuteczniejsza. Nasz serwer reklam losowo wyświetli jedną z tych reklam. Sukces polega na tym, że użytkownik kliknie reklamę - nasz serwer to śledzi.

Biorąc pod uwagę: Przedział ufności: 95%

Pytanie: Jaka jest szacunkowa wielkość próby? (Ile wszystkich reklam musimy wyświetlać), Dlaczego? (pamiętaj, że jestem manekinem)

Dzięki

— Jonathan
źródło

Czy możesz wyjaśnić, co rozumiesz przez „margines błędu 5%”?

— onestop

@onstop - dobre wyjaśnienie - usunąłem go z pytania. Właśnie wziąłem tę zmienną z następującego kalkulatora wielkości próbki: raosoft.com/samplesize.html Ale nie sądzę, aby była to zmienna w tym pytaniu. Dzięki!

— Jonathan

W przypadku wielu testów można obliczyć wielkość próbki, tak aby test osiągnął określoną moc przy założonym (stałym) rozmiarze efektu. Innymi słowy, musisz najpierw sprecyzować następujące rzeczy: 1) jakiego testu chcesz użyć? 2) jaką moc ma mieć ten test? pod warunkiem 3) rozmiaru efektu, który uważasz za interesujący. 1) to coś, w czym ludzie mogą Ci pomóc. 2) może być powiązany z 95% wskazanymi przez Ciebie. 3) jest jednak coś, co musisz wcześniej podać: jak różne są prawdopodobieństwa, które należy uznać za interesująco różne?

— caracal

Więc jeśli muszę podać więcej parametrów, proszę: 1. test użyć - nie mam pojęcia - czy masz jakieś sugestie? 2. moc : nawet po przejrzeniu definicji wikipedii - nie wiem, jak inteligentnie na to odpowiedzieć. 3. wielkość efektu : Powiedzmy 10% lepiej

— Jonathan

Test, który prawdopodobnie chcesz, to dokładny test Fishera . Niestety, biorąc pod uwagę prawdopodobny bardzo niski współczynnik klikalności i niewielki oczekiwany rozmiar efektu, będziesz potrzebować ogromnego N, aby osiągnąć pożądany przedział ufności. Powiedzmy, że „prawdziwy” współczynnik klikalności Twojej najlepszej reklamy wynosi 0,11, a Twój drugi najlepszy wynik to .1. Ponadto załóżmy, że chcesz, aby prawdopodobieństwo, że niewłaściwie nie odrzucisz hipotezy zerowej (że nie ma różnicy między dwiema reklamami), będzie mniejsze niż 0,20. Jeśli tak jest, będziesz potrzebować N rzędu 10.000.

> library(statmod)   
> power.fisher.test(.1,.11,20000,20000,.05)
[1] 0.84

Jak sugerował komentator, prawdopodobnie nie powinno Cię obchodzić dziesięcioprocentowa różnica w skuteczności reklam. W przypadku różnic grubszych niezbędny rozmiar próbek zmniejsza się szybko.

> power.fisher.test(.1,.2,200,200,.05)
[1] 0.785

— fgregg
źródło