Codziennie zbieram bardzo duże próbki (> 1 000 000) danych kategorycznych i chcę, aby dane wyglądały „znacząco” różnie między poszczególnymi dniami w celu wykrycia błędów w gromadzeniu danych.
Myślałem, że użycie testu dobrego dopasowania (w szczególności testu G) byłoby dobrym dopasowaniem (gra słów). Oczekiwany rozkład wynika z rozkładu z poprzedniego dnia.
Ale ponieważ moje rozmiary próbek są tak duże, test ma bardzo dużą moc i daje wiele fałszywych wyników dodatnich. To znaczy, nawet bardzo niewielka dzienna fluktuacja da prawie zerową wartość p.
Ostatecznie pomnożyłem moją statystykę testową przez pewną stałą (0,001), co ma niezłą interpretację próbkowania danych z tą szybkością. Ten artykuł wydaje się zgadzać z tym podejściem. Mówią, że:
Chi kwadrat jest najbardziej niezawodny z próbkami od około 100 do 2500 osób
Szukam bardziej autorytatywnych komentarzy na ten temat. A może jakieś alternatywne rozwiązania dla fałszywych trafień podczas przeprowadzania testów statystycznych na dużych zestawach danych.