Próbuję zrozumieć rozumowanie, wybierając konkretne podejście testowe, gdy mamy do czynienia z prostym testem A / B - (tj. Dwie odmiany / grupy z odpowiedzią binarną (przekształconą lub nie). Jako przykład wykorzystam poniższe dane
Version Visits Conversions
A 2069 188
B 1826 220
Najlepsza odpowiedź tutaj jest świetna i mówi o niektórych podstawowych założeniach testów kwadratowych z, ti chi. Co jednak wydaje mi się mylące, że różne zasoby online będą cytować różne podejścia i pomyślisz, że założenia podstawowego testu A / B powinny być prawie takie same?
- Na przykład w tym artykule zastosowano wynik Z :
- W tym artykule zastosowano następującą formułę (której nie jestem pewien, czy różni się ona od obliczeń zscore?):
- Ten artykuł odnosi się do testu t (str. 152):
Jakie argumenty można przedstawić na korzyść tych różnych podejść? Dlaczego ktoś miałby preferencje?
Aby dodać jeszcze jednego kandydata, powyższą tabelę można przepisać jako tabelę awaryjności 2x2, w której można zastosować dokładny test Fishera (p5)
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Ale zgodnie z tym wątkiem dokładny test Fishera powinien być stosowany tylko z próbkami o mniejszych rozmiarach (co to jest odcięcie?)
A potem są sparowane testy tiz, test f (i regresja logistyczna, ale na razie chcę to pominąć) .... Czuję, że tonę w różnych podejściach testowych i po prostu chcę móc zrób jakiś argument za różnymi metodami w tym prostym przypadku testowym A / B.
Korzystając z przykładowych danych, otrzymuję następujące wartości p
https://vwo.com/ab-split-test-ssenceance-calculator/ daje wartość p wynoszącą 0,001 (wynik Z)
http://www.evanmiller.org/ab-testing/chi-squared.html (przy użyciu testu chi kwadrat) daje wartość p wynoszącą 0,00259
A w R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
daje wartość p 0,002785305
Sądzę, że wszystkie są bardzo blisko ...
W każdym razie - po prostu mam nadzieję na zdrową dyskusję na temat tego, jakie podejścia zastosować w testach online, w których wielkości próbek są zwykle w tysiącach, a współczynniki odpowiedzi często wynoszą 10% lub mniej. Mój żołądek mówi mi, żebym użył chi-kwadrat, ale chcę być w stanie odpowiedzieć dokładnie, dlaczego wybrałem to na wiele innych sposobów.