Bezpieczne określanie wielkości próbki do testów A / B


22

Jestem inżynierem oprogramowania, który chce zbudować narzędzie do testowania A / B. Nie mam solidnych statystyk, ale przez ostatnie kilka dni sporo czytałem.

Postępuję zgodnie z opisaną tutaj metodologią i streszczę odpowiednie punkty poniżej.

Narzędzie pozwoli projektantom i ekspertom domeny skonfigurować witrynę internetową w celu podziału ruchu otrzymanego pod określonym adresem URL na dwa lub więcej adresów URL. Na przykład ruch przychodzący na http://example.com/hello1 można podzielić na http://example.com/hello1 i http://example.com/hello2 . Ruch zostałby podzielony równomiernie między docelowe adresy URL, a wydajność procesów marketingowych w każdym z docelowych adresów URL zostanie porównana.

W tym eksperymencie wielkość próbki Nbędzie odpowiadać odwiedzającym. Test mierzy „konwersje”, termin opisujący, kiedy użytkownik zobowiązuje się do określonego działania w procesie marketingowym. Konwersje są wyrażane w procentach i pożądany jest wyższy współczynnik konwersji. To sprawia, że ​​test jest porównaniem niezależnych proporcji. Narzędzie musi być łatwe do zastosowania w celu uzyskania testów z bezpiecznymi wynikami. NWażne jest wybranie odpowiedniej wartości .

W powiązanym artykule powyżej zastosowano analizę mocy w dwóch niezależnych proporcjach N. Ta metoda wymaga wcześniejszej znajomości współczynnika konwersji kontroli, a także określenia docelowej pożądanej poprawy konwersji. Określa również poziom istotności na poziomie 95% i moc statystyczną na poziomie 80%.

Pytania:

  1. Czy to metoda określania Ndźwięku? Jeśli tak, jaki jest najbezpieczniejszy sposób ustalenia współczynnika konwersji kontroli przed rozpoczęciem testu?
  2. Czy istnieją rozsądne sposoby ustalenia N, które nie wymagają wcześniejszej znajomości współczynników konwersji kontroli?
  3. Czy metodyka w powiązanym artykule brzmi dobrze? Jeśli nie, czy są dostępne i łatwo przyswajalne metody, do których możesz mnie powiązać?

Odpowiedzi:


12

Najpopularniejszą metodą przeprowadzania tego rodzaju testów są dwumianowe przedziały ufności proporcji (patrz http://bit.ly/fa2K7B )

Nigdy nie będziesz w stanie poznać „prawdziwego” współczynnika konwersji dwóch ścieżek, ale da ci to możliwość powiedzenia czegoś o efekcie „Przy 99% pewności A jest bardziej skuteczny w konwersji niż B”.

Na przykład: Załóżmy, że przeprowadziłeś 1000 prób na ścieżce A. Spośród tych 1000 prób 121 było udanych konwersji (współczynnik konwersji 0,121) i chcielibyśmy 99% przedział ufności wokół tego wyniku 0,121. Wynik_z do 99% przedziały ufności 2,576 (po prostu sprawdzić to w tabeli), więc według Tak z 99% pewnością możemy powiedzieć, że0,094 p0,148, gdzie p jest „true” współczynnik konwersji sposobie A.

p^±2,576(0,121(1-0,121)1000)p^±0,027
0,094p^0,148p^

Jeśli skonstruujemy podobny przedział dla procesu B, możemy porównać przedziały. Jeśli przedziały nie pokrywają się, możemy powiedzieć z 98% pewnością, że jedno jest lepsze od drugiego. (Pamiętaj, że jesteśmy w 99% pewni co do każdego przedziału, więc nasze ogólne zaufanie do porównania wynosi 0,99 * 0,99)

N.N.

Powodzenia. (Przy okazji, rootuję proces B).


2
L.ZAT.miXp^

p^0,094p^0,148sudomissmistrjazalsp^p

Ta odpowiedź jest niepoprawna. W szczególności: „Jeśli przedziały nie pokrywają się, możemy powiedzieć z 98% pewnością, że jedno jest lepsze od drugiego” jest błędne. Biorąc pod uwagę dwa nie pokrywające się 99% przedziały ufności, pewność, że różnica wyklucza 0, przy CO najmniej 99%. Jeśli przedziały są tego samego rozmiaru, różnica jest znacząca na poziomie około 99,97%. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan

@Bscan Czy twój komentarz dotyczy innych wartości? Np. Czy słusznie jest powiedzieć (zgodnie z twoim zaleceniem), że różnica średnich wynosi co najmniej 30%, jeśli mamy dwa nie pokrywające się 30% przedziały ufności tego samego rozmiaru?
Felipe Almeida,

1
@Fipe, tak, komentarz dotyczy wszystkich wartości, a nie nakładające się 30% przedziały ufności implikują pewność, że różnica wykluczająca 0 wynosi co najmniej 30%. Nie oznacza to jednak, że istnieje 30% różnica środków. Prawdziwe środki mogą być bardzo podobne; staramy się po prostu udowodnić, że nie są dokładnie takie same.
Bscan 20.04.2016

8

IMHO, o ile to możliwe, poczta idzie w dobrym kierunku. Jednak:

  • Proponowana metoda domyślnie przyjmuje dwa założenia: bazowy współczynnik konwersji i oczekiwaną wielkość zmiany. Wielkość próby zależy w dużej mierze od tego, jak dobrze spełniasz te założenia. Zalecam, aby obliczyć wymagane wielkości próbek dla kilku kombinacji p1 i p2, które Twoim zdaniem są realistyczne. To daje poczucie, jak wiarygodne jest obliczanie wielkości próby.

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    Jeśli więc rzeczywisty współczynnik konwersji wynosi 9% zamiast 10%, potrzebujesz kolejnych 2000 przypadków dla każdego scenariusza, aby wykryć 10% więcej niż wyjściowy współczynnik konwersji nowego formularza.

Po zakończeniu testu można obliczyć przedziały ufności dla proporcji na podstawie rzeczywistych obserwacji.

  • n
    nsig.level

Cześć, wielkie dzięki za poświęcenie czasu na krytykę tych metod. W obliczeniach (1 - α) ² ≈ 10%, do czego odnosi się „α”? Ponieważ przechwytywanie danych testowych zajmuje dużo czasu, jak sugerujesz, aby zbudować ten eksperyment, jeśli chcesz przetestować trzy proporcje? Czy istnieje bezpieczny sposób, który nie wymaga przeprowadzania wielu testów? Przy trzech alternatywach trzy testy nie są strasznie uciążliwe, ale przy czterech alternatywach liczba kombinacji strzela do sześciu.
jkndrkn

1
@jkndrkn: α to prawdopodobieństwo fałszywego odejścia od oryginalnej formy, czyli błędu α lub błędu typu I. Zobacz zaktualizowaną odpowiedź.
cbeleites obsługuje Monikę

1
@jkndrkn: Wiele testów: rzuciłbym okiem na Fleiss i wsp .: Metody statystyczne dla stawek i proporcji dotyczące procedur takich testów. Jednak kluczową kwestią dla takich wielokrotnych testów jest zawsze wykorzystanie wiedzy eksperckiej, aby zmniejszyć liczbę alternatyw w jak największym stopniu przed zdefiniowaniem testu, ponieważ wymagane rozmiary próbek eksplodują wraz z liczbą alternatyw (jak już sobie uświadomiłeś).
cbeleites obsługuje Monikę

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.