Studiowałem statystyki wiele lat temu i zapomniałem o tym wszystkim, więc mogą wydawać się ogólnymi pytaniami koncepcyjnymi niż cokolwiek konkretnego, ale oto mój problem.
Pracuję dla witryny e-commerce jako Projektant UX. Mamy platformę testową A / B, która została zbudowana lata temu i zaczynam w to wątpić.
Dane, na podstawie których podejmujemy wszystkie nasze decyzje, nazywane są konwersjami i opierają się na odsetku użytkowników, którzy odwiedzają witrynę i ostatecznie coś kupują.
Chcemy więc przetestować zmianę koloru przycisku Kup z zielonego na niebieski.
Kontrola jest tym, co już mamy, zielony przycisk, w którym wiemy, jaki jest nasz średni współczynnik konwersji. Eksperyment polega na zastąpieniu zielonego przycisku niebieskim przyciskiem.
Zgadzamy się, że 95% to poziom ufności, z którego jesteśmy zadowoleni, i włączamy eksperyment, pozostawiając go uruchomionym.
Gdy użytkownicy odwiedzają witrynę, za kulisami istnieje szansa 50/50, że zostaną wysłani do wersji kontrolnej (zielony przycisk) w porównaniu z wersją eksperymentalną (niebieski przycisk).
Po spojrzeniu na eksperyment po 7 dniach widzę wzrost konwersji o 10,2% na korzyść eksperymentu z wielkością próby 3000 (1500 dla próby kontrolnej, 1500 dla eksperymentu) i istotnością statystyczną 99,2%. Myślę, że świetnie.
Eksperyment trwa, wielkość próbki rośnie, a następnie widzę wzrost konwersji o 9% ze znaczeniem 98,1%. Ok, utrzymuj eksperyment dłużej, a teraz eksperyment pokazuje tylko 5% wzrost konwersji z istotnością statystyczną wynoszącą tylko 92%, z ramą, która mówi mi, że potrzebuję 4600 dodatkowych próbek, zanim osiągnę 95% istotność?
W którym momencie eksperyment jest zatem rozstrzygający?
Jeśli myślę o powiedzeniu o procesie badania klinicznego, w którym z góry zgadzasz się na wielkość próby, a po zakończeniu eksperymentu widzisz 10% poprawę dowolnej miary do 99% znaczenia, wtedy zostaje podjęta decyzja, że ten lek trafi na rynek. Ale jeśli przeprowadziliby eksperyment na 4000 ludzi i zauważą 5% poprawę dowolnego wskaźnika do zaledwie 92% znaczącego, to lek ten nie będzie mógł wejść na rynek.
Czy powinniśmy wcześniej uzgodnić wielkość próby i zatrzymać ją po osiągnięciu tego rozmiaru i być zadowolonym z wyników, jeśli istotność wynosiła 99% w momencie wyłączenia eksperymentu?