Mam trzy grupy danych, każda z rozkładem dwumianowym (tj. Każda grupa ma elementy, które są albo sukcesem, albo porażką). Nie mam przewidywanego prawdopodobieństwa sukcesu, ale zamiast tego mogę polegać jedynie na współczynniku sukcesu każdego z nich jako przybliżeniu prawdziwego wskaźnika sukcesu. Znalazłem tylko to pytanie , które jest bliskie, ale nie wydaje się, aby dokładnie dotyczyło tego scenariusza.
Aby uprościć test, powiedzmy, że mam 2 grupy (3 można rozszerzyć z tego podstawowego przypadku).
- Badania grupy 1: = 2455
- Badania grupy 2: = 2730
- Sukces grupy 1: = 1556
- Sukces grupy 2: = 1671
Nie mam spodziewanego prawdopodobieństwa sukcesu, tylko to, co wiem z próbek. Mój dorozumiany wskaźnik sukcesu dla dwóch grup wynosi:
- Wskaźnik powodzenia grupy 1: = 1556/2455 = 63,4%
- Wskaźnik powodzenia grupy 2: = 1671/2730 = 61,2%
Wskaźnik powodzenia każdej próbki jest dość zbliżony. Jednak moje rozmiary próbek są również dość duże. Jeśli sprawdzę CDF rozkładu dwumianowego, aby zobaczyć, jak różni się on od pierwszego (gdzie zakładam, że pierwszy jest testem zerowym), mam bardzo małe prawdopodobieństwo, że drugi może zostać osiągnięty.
W programie Excel:
1-BINOM.DIST (1556,2455,61.2%, PRAWDA) = 0,012
Nie uwzględnia to jednak żadnej wariancji pierwszego wyniku, zakłada jedynie, że pierwszym wynikiem jest prawdopodobieństwo testu.
Czy istnieje lepszy sposób na sprawdzenie, czy te dwie próbki danych różnią się między sobą statystycznie?
prop.test
: prop.test(c(1556, 1671), c(2455, 2730))
.