Na jakie warunki danych należy zwrócić uwagę, w przypadku których wartości p mogą nie być najlepszym sposobem decydowania o istotności statystycznej? Czy istnieją konkretne typy problemów, które należą do tej kategorii?
Na jakie warunki danych należy zwrócić uwagę, w przypadku których wartości p mogą nie być najlepszym sposobem decydowania o istotności statystycznej? Czy istnieją konkretne typy problemów, które należą do tej kategorii?
Odpowiedzi:
Pytasz o Pogłębianie danych , co dzieje się podczas testowania bardzo dużej liczby hipotez na zbiorze danych lub testowania hipotez na zbiorze danych sugerowanych przez te same dane.
W szczególności sprawdź ryzyko wielu hipotez i testowanie hipotez sugerowanych przez dane .
Rozwiązaniem jest użycie pewnego rodzaju korekcji współczynnika fałszywego wykrywania lub współczynnika błędu Familywise , takiego jak metoda Scheffégo lub (bardzo stara) korekcja Bonferroniego .
W nieco mniej rygorystyczny sposób może pomóc w filtrowaniu odkryć według przedziału ufności dla ilorazu szans (OR) dla każdego wyniku statystycznego. Jeśli 99% przedział ufności dla ilorazu szans wynosi 10-12, wówczas OR wynosi <= 1 z pewnym bardzo małym prawdopodobieństwem, szczególnie jeśli wielkość próby jest również duża. Jeśli znajdziesz coś takiego, prawdopodobnie będzie to silny efekt, nawet jeśli wynik próby milionów hipotez.
Nie powinieneś rozważać wartości p poza kontekstem.
Jedną raczej podstawową kwestią (jak ilustruje xkcd ) jest to, że musisz rozważyć, ile testów faktycznie wykonujesz. Oczywiście nie powinieneś być zszokowany, gdy zobaczysz p <0,05 dla jednego z 20 testów, nawet jeśli hipoteza zerowa jest prawdziwa za każdym razem.
Bardziej subtelny przykład tego występuje w fizyce wysokich energii i jest znany jako efekt look-else . Im większa przestrzeń parametrów, w której poszukujesz sygnału, który może reprezentować nową cząsteczkę, tym bardziej prawdopodobne jest, że zobaczysz sygnał pozorny, który jest naprawdę spowodowany przypadkowymi fluktuacjami.
Jedną z rzeczy, o których powinieneś wiedzieć, jest rozmiar próbki, której używasz. Bardzo duże próbki, takie jak ekonomiści korzystający z danych spisowych, doprowadzą do deflacji wartości p. Artykuł „Zbyt duży, by upaść: duże próbki i problem z wartością p” obejmuje niektóre z zagadnień.