Testy A / B: test Z vs test t vs chi kwadrat vs dokładny test Fishera

Próbuję zrozumieć rozumowanie, wybierając konkretne podejście testowe, gdy mamy do czynienia z prostym testem A / B - (tj. Dwie odmiany / grupy z odpowiedzią binarną (przekształconą lub nie). Jako przykład wykorzystam poniższe dane

Version  Visits  Conversions
A        2069     188
B        1826     220

Najlepsza odpowiedź tutaj jest świetna i mówi o niektórych podstawowych założeniach testów kwadratowych z, ti chi. Co jednak wydaje mi się mylące, że różne zasoby online będą cytować różne podejścia i pomyślisz, że założenia podstawowego testu A / B powinny być prawie takie same?

Na przykład w tym artykule zastosowano wynik Z :
W tym artykule zastosowano następującą formułę (której nie jestem pewien, czy różni się ona od obliczeń zscore?):

Ten artykuł odnosi się do testu t (str. 152):

Jakie argumenty można przedstawić na korzyść tych różnych podejść? Dlaczego ktoś miałby preferencje?

Aby dodać jeszcze jednego kandydata, powyższą tabelę można przepisać jako tabelę awaryjności 2x2, w której można zastosować dokładny test Fishera (p5)

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Ale zgodnie z tym wątkiem dokładny test Fishera powinien być stosowany tylko z próbkami o mniejszych rozmiarach (co to jest odcięcie?)

A potem są sparowane testy tiz, test f (i regresja logistyczna, ale na razie chcę to pominąć) .... Czuję, że tonę w różnych podejściach testowych i po prostu chcę móc zrób jakiś argument za różnymi metodami w tym prostym przypadku testowym A / B.

Korzystając z przykładowych danych, otrzymuję następujące wartości p

https://vwo.com/ab-split-test-ssenceance-calculator/ daje wartość p wynoszącą 0,001 (wynik Z)
http://www.evanmiller.org/ab-testing/chi-squared.html (przy użyciu testu chi kwadrat) daje wartość p wynoszącą 0,00259
A w R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valuedaje wartość p 0,002785305

Sądzę, że wszystkie są bardzo blisko ...

W każdym razie - po prostu mam nadzieję na zdrową dyskusję na temat tego, jakie podejścia zastosować w testach online, w których wielkości próbek są zwykle w tysiącach, a współczynniki odpowiedzi często wynoszą 10% lub mniej. Mój żołądek mówi mi, żebym użył chi-kwadrat, ale chcę być w stanie odpowiedzieć dokładnie, dlaczego wybrałem to na wiele innych sposobów.

— P Xandor
źródło

Jeśli chodzi o testy i twoje pytanie już odpowiedziano tutaj: stats.stackexchange.com/questions/85804/…

z

$z$

t

$t$

— Tim

Ta prezentacja była bardzo pomocna. Co pokazuje, że test z dla proporcji jest zasadniczo równoważny testowi chi-kwadrat jednorodności na tabeli kontyngencji 2x2. rinterested.github.io/statistics/chi_square_same_as_z_test.html

— yueyanw

Odpowiedzi:

Używamy tych testów z różnych powodów i w różnych okolicznościach.

$z$ -test. Test zakłada, że nasze obserwacje są niezależne od rozkładu normalnego z nieznaną średnią i znaną wariancją. Test jest używany przede wszystkim, gdy mamy dane ilościowe. (tj ciężary gryzoni, wiek osób, skurczowego ciśnienia tętniczego, etc.), jednak -tests może być również używany, gdy zainteresowany proporcjach. (tj. odsetek osób, które śpią co najmniej osiem godzin itp.) $z$ $z$ $z$
$t$ -test. Test zakłada, że nasze obserwacje są niezależne od rozkładu normalnego o nieznanej średniej i nieznanej wariancji. Zauważ, że dzięki testowi nie znamy wariancji populacji. Jest to o wiele bardziej powszechne niż znajomość wariancji populacji, więc test jest na ogół bardziej odpowiedni niż test , ale praktycznie nie będzie między nimi niewielkiej różnicy, jeśli wielkość próby jest duża. $t$ $t$ $t$ $z$

Z - i -tests Twoja hipoteza alternatywna będzie, że średnia populacji (lub odsetek populacji) jednej grupy albo nie jest równy, mniejszy lub większy niż średnia populacji (lub część) lub drugiej grupy. Będzie to zależeć od rodzaju analizy, którą chcesz przeprowadzić, ale twoje hipotezy zerowe i alternatywne bezpośrednio porównują średnie / proporcje z dwóch grup. $z$ $t$

Test chi-kwadrat. Podczas gdy testy i dotyczą danych ilościowych (lub proporcji w przypadku ), testy chi-kwadrat są odpowiednie dla danych jakościowych. Ponownie zakłada się, że obserwacje są od siebie niezależne. W takim przypadku nie szukasz konkretnego związku. Twoja hipoteza zerowa jest taka, że nie istnieje związek między zmienną pierwszą a zmienną drugą. Twoja alternatywna hipoteza jest taka, że związek istnieje. Nie daje to szczegółowych informacji na temat tego, w jaki sposób ta relacja istnieje (tj. W jakim kierunku idzie relacja), ale dostarczy dowodów, że istnieje (lub nie istnieje) relacja między twoją niezależną zmienną a twoimi grupami. $z$ $t$ $z$
Dokładny test Fishera. Wadą testu chi-kwadrat jest to, że jest asymptotyczny. Oznacza to, że wartość jest dokładna dla bardzo dużych próbek. Jeśli jednak twoje próbki są małe, wartość może nie być całkiem dokładna. W związku z tym dokładny test Fishera pozwala dokładnie obliczyć wartość danych i nie polegać na przybliżeniach, które będą słabe, jeśli próby będą małe. $p$ $p$ $p$

Wciąż omawiam rozmiary próbek - różne odniesienia dadzą ci różne dane, kiedy twoje próbki będą wystarczająco duże. Po prostu znajdę renomowane źródło, przejrzę ich regułę i zastosuję ich regułę, aby znaleźć test, który chcesz. Mógłbym „rozejrzeć się”, że tak powiem, dopóki nie znajdziesz reguły, którą „lubisz”.

Ostatecznie test, który wybierzesz, powinien opierać się na: a) wielkości próbki ib) jakiej formie chcesz przyjąć swoje hipotezy. Jeśli szukasz konkretnego efektu ze swojego testu A / B (na przykład, moja grupa B ma wyższe wyniki testów), a następnie chciałbym zdecydować się na -test lub -test oczekiwaniu próbki wielkości i wiedzy o populacji zmienność. Jeśli chcesz pokazać, że relacja po prostu istnieje (na przykład moja grupa A i grupa B różnią się w zależności od zmiennej niezależnej, ale nie dbam o to, która grupa ma wyższe wyniki), to chi-kwadrat lub dokładny test Fishera to odpowiednie, w zależności od wielkości próbki. $z$ $t$

Czy to ma sens? Mam nadzieję że to pomoże!

— Matt Brems
źródło

Dzięki za szczegółową odpowiedź! Omówię to szczegółowo - jestem pewien, że będę miał kilka pytań!

— L Xandor,

Czy możesz wyjaśnić, w jaki sposób test chi-kwadrat i dokładny test Fishera nie wskazują kierunku efektu? Jeśli wszystkie testy statystyki wnioskowania zapewniają poziom ufności wokół tego, czy dwa zestawy próbek są pobierane z różnych populacji czy z tej samej populacji, to co jest w teorii matematycznej, która nie pozwala powiedzieć, że utrzyma się kierunkowa różnica średnich wartości (grupa B ma wyższy wynik)?

— Chris F

Dla jasności test chi-kwadrat i dokładny test Fishera robią to samo, ale wartość p oblicza się nieco inaczej. (To przybliżenie pod chi-kwadrat i dokładna kalkulacja pod dokładnością Fishera.) Zajmę się chi-kwadrat i uogólni się na Fishera. Problemem jest tutaj założenie. „Jeśli wszystkie testy statystyki wnioskowania zapewniają poziom ufności wokół tego, czy dwie próbki są pobierane z…” - nie robi to test chi-kwadrat. Hipoteza zerowa dla testu chi-kwadrat jest taka, że nie ma powiązania i hipoteza alternatywna ...

— Matt Brems

... jest to, że istnieje pewna zależność między dwiema zmiennymi kategorialnymi. Po prostu testujesz na istnienie powiązania i nie określasz z góry określonego kierunku. (Istnieje kilka mniej znanych statystyk, które określają określoną zależność, więc jest to możliwe; jednak nie do tego służy test chi-kwadrat.) Aby wywnioskować później, że istnieje szczególna zależność kierunkowa oparta na wartość p, która została obliczona na podstawie innego zestawu hipotez zaprojektowanych tylko w celu sprawdzenia istnienia związku, byłaby błędem.

— Matt Brems,

Jako przykład rozważ hipotezy porównaniu z i powiedz, że wykonujesz i otrzymujesz wartość wynoszącą 0,04. Odrzuciłbyś hipotezę zerową i stwierdziłbyś, że jest różnica. Jeśli twoje oszacowanie dla było powyżej 0, możesz pokusić się o stwierdzenie, że prawdziwa średnia jest wyższa od 0. Jednakże, jeśli hipotezy porównaniu do z przy tych samych danych, twoja wartość wyniesie 0,08 i nie odrzucisz wartości null, zakładając, że , co oznacza, że nie możesz dojść do wniosku, że jest większe niż 0.

H_{0} : μ = 0

$H_0: \mu = 0$

H_{A} : μ \neq 0

$H_A: \mu \neq 0$

t

$t$

p

$p$

μ

$\mu$

μ

$\mu$

H_{0} : μ \leq 0

$H_0: \mu \leq 0$

H_{A} : μ > 0

$H_A: \mu > 0$

p

$p$

α = 0.05

$\alpha=0.05$

μ

$\mu$

— Matt Brems,

-3

W przypadku testu 3-drogowego zwykle używasz ANOVA zamiast 3 osobnych testów. Przed wielokrotnym testowaniem sprawdź również poprawkę Bonferroni. Proszę użyć tego https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&oq=testing+multiple+means+&aqs=chrome..69i57j69i69j69i60l3j69i61j0.3564j0ch7&s=id

— Harini
źródło