Moje doświadczenie pochodzi z eksperymentów A / B online, w których problemem są zwykle słabe badania lub pomiary niewłaściwych rzeczy. Wydaje mi się jednak, że przytłoczone badanie wytwarza węższe przedziały ufności niż porównywalne badania, niższe wartości p i prawdopodobnie inna wariancja. Wyobrażam sobie, że może to utrudnić porównanie podobnych badań. Na przykład, jeśli powtórzę obezwładnione badanie przy użyciu odpowiedniej mocy, moja wartość p byłaby wyższa, nawet gdybym dokładnie odtworzył efekt. Zwiększony rozmiar próbki może wyrównać zmienność lub wprowadzić zmienność, jeśli istnieją wartości odstające, które mogą mieć większe szanse na pojawienie się w większej próbce.
Ponadto moje symulacje pokazują, że efekty inne niż te, którymi jesteś zainteresowany, mogą stać się znaczące przy większej próbce. Tak więc, chociaż wartość p poprawnie mówi o prawdopodobieństwie, że twoje wyniki są prawdziwe, mogą być prawdziwe z powodów innych niż myślisz, np. Połączenie szansy, jakiegoś przejściowego efektu, którego nie kontrolowałeś, i być może innego mniejszy efekt, który wprowadziłeś, nie zdając sobie z tego sprawy. Jeśli badanie jest nieco przytłoczone, ryzyko tego jest niskie. Problem polega często na tym, że trudno jest określić odpowiednią moc, np. Jeśli wskaźniki bazowe i minimalny efekt docelowy są domysłów lub okazują się inne niż oczekiwano.
Natknąłem się również na artykuł, który dowodzi, że zbyt duża próbka może sprawić, że test dobroci dopasowania będzie zbyt wrażliwy na nieistotne odchylenia, prowadząc do potencjalnie sprzecznych z intuicją wyników.
To powiedziawszy, uważam, że najlepiej jest pomylić się po stronie wysokiej, a nie niskiej mocy.