Z powodu twoich komentarzy utworzę dwie osobne sekcje:
wartości p
W testowaniu hipotez statystycznych można znaleźć „dowody statystyczne” dla hipotezy alternatywnej ; Jak wyjaśniłem w Co dalej, jeśli nie odrzucimy hipotezy zerowej? , jest podobny do „dowodu sprzeczności” w matematyce.
Jeśli więc chcemy znaleźć „dowody statystyczne”, zakładamy coś przeciwnego, co oznacza tego, co próbujemy udowodnić, co nazywamy H 1 . Następnie narysujemy próbkę, a na jej podstawie obliczamy tak zwaną statystykę testową (np. Wartość t w teście t).H.0H.1
Następnie, zakładając, że jest prawdą i że nasza próbka jest losowo pobierana z rozkładu pod H 0 , możemy obliczyć prawdopodobieństwo zaobserwowania wartości, które przekraczają lub równe wartości uzyskanej z naszej (losowej) próbki. Prawdopodobieństwo to nazywa się wartością p.H.0H.0
Jeśli ta wartość jest „wystarczająco mała”, tj. Mniejsza niż poziom istotności, który wybraliśmy, wówczas odrzucamy i uważamy, że H 1 jest „statystycznie udowodnione”.H.0H.1
W ten sposób ważne jest kilka rzeczy:
- wyprowadziliśmy prawdopodobieństwa przy założeniu, że jest prawdziweH.0
- pobraliśmy losową próbkę z dystrakcji przyjętej dla H.0
- się zdecydować , aby znaleziono dowodów , jeśli test statystyczny, pochodzący z próbki losowo ma małe prawdopodobieństwo jest przekroczony. Nie jest więc niemożliwe, że zostanie on przekroczony, gdy H 0 jest prawdą, aw takich przypadkach popełniamy błąd typu I. H.1H.0
Czym więc jest błąd typu I: błąd typu I powstaje, gdy próbka losowo pobrana z prowadzi do wniosku, że H 0 jest fałszem, podczas gdy w rzeczywistości jest prawdą.H.0H.0
Należy pamiętać, że oznacza to, że wartość p nie jest prawdopodobieństwo błędu I rodzaju . Rzeczywiście, błąd typu I jest złą decyzją testu i decyzję można podjąć tylko poprzez porównanie wartości p z wybranym poziomem istotności, przy samej wartości p nie można podjąć decyzji, to dopiero po porównaniu wartość p do wybranego poziomu istotności, że podejmowana jest decyzja , i dopóki nie zostanie podjęta decyzja, błąd typu I nie jest nawet zdefiniowany.
Jaka jest zatem wartość p? Potencjalnie niewłaściwe odrzucenie wynika z faktu, że losujemy próbkę pod H 0 , więc może być tak, że mamy „pecha” poprzez losowanie próbki i że to „pech” prowadzi do fałszywego odrzucenia H 0 . Zatem wartość p (chociaż nie jest to w pełni poprawna) bardziej przypomina prawdopodobieństwo wyciągnięcia „złej próbki”. Prawidłowa interpretacja wartości p polega na tym, że prawdopodobieństwo, że statystyka testowa przekroczy lub zrównuje wartość statystyki testowej uzyskanej z losowo dobranej próbki pod H 0H.0H.0H.0H.0
Fałszywy wskaźnik wykrywalności (FDR)
Jak wyjaśniono powyżej, za każdym razem, gdy hipoteza zerowa jest odrzucana, uważa się to za „dowód statystyczny” dla . Znaleźliśmy więc nową wiedzę naukową, dlatego nazywa się to odkryciem . Wyjaśniono również powyżej, że możemy popełnić fałszywe odkrycia (tj. Fałszywie odrzucając H 0 ), gdy popełniamy błąd typu I. W takim przypadku mamy fałszywe przekonanie o naukowej prawdzie. Chcemy tylko odkrywać prawdziwe rzeczy i dlatego staramy się ograniczyć liczbę fałszywych odkryć do minimum, tj. Kontrolować nad błędem typu I. Nietrudno dostrzec, że prawdopodobieństwo błędu typu I jest wybranym poziomem istotności α . Aby więc kontrolować błędy typu I, naprawia się αH.1H.0αα- poziom odzwierciedlający Twoją gotowość do zaakceptowania „fałszywych dowodów”.
Intuicyjnie oznacza to, że jeśli narysujemy ogromną liczbę próbek i przy każdej próbce przeprowadzimy test, wówczas ułamek tych testów doprowadzi do błędnego wniosku. Należy zauważyć, że „uśredniamy wiele próbek” ; taki sam test, wiele próbek. α
Jeśli wykorzystamy tę samą próbkę do wykonania wielu różnych testów, wówczas wystąpi błąd wielokrotnego testowania (zobacz moją anserię dotyczącą granicy błędów dla całej rodziny: Czy ponowne użycie zestawów danych w różnych badaniach niezależnych pytań prowadzi do wielu problemów z testowaniem? ). W takim przypadku można kontrolować inflację za pomocą technik kontroli rodzinnego wskaźnika błędów (FWER) , takich jak np. Korekcja Bonferroniego.α
Innym podejściem niż FWER jest kontrolowanie wskaźnika fałszywych odkryć (FDR) . W tym przypadku jeden kontroluje liczbę fałszywych odkryć (FD) wśród wszystkich odkryć (D), więc jeden steruje , D jest liczbą odrzuconychH0.farereH.0
Więc typ prawdopodobieństwo błędu I ma do czynienia z wykonaniem samego testu na wielu różnych próbkach. W przypadku ogromnej liczby próbek prawdopodobieństwo błędu typu I zbiegnie się z liczbą próbek prowadzącą do fałszywego odrzucenia podzieloną przez całkowitą liczbę pobranych próbek .
FDR ma do czynienia z licznymi testami na tej samej próbce, a dla ogromnej liczby badań będzie zbiegają do liczby prób, gdzie jest błąd typu I jest wykonana (czyli liczba fałszywych odkryć) podzielona przez łączną liczbę odrzucenie (tj. Całkowita liczba odkryć)H.0 .
Zauważ, że porównując dwa akapity powyżej:
- Kontekst jest inny; jeden test i wiele próbek w porównaniu do wielu testów i jednej próbki.
- Mianownik do obliczania prawdopodobieństwa błędu typu I wyraźnie różni się od mianownika do obliczania FDR. Liczniki są w pewien sposób podobne, ale mają inny kontekst.
FDR mówi ci, że jeśli wykonasz wiele testów na tej samej próbce i znajdziesz 1000 odkryć (tj. Odrzucenia ), to przy FDR równym 0,38 będziesz miał 0,38 × 1000 fałszywych odkryć.H.00,38 × 1000
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is true
Wartość p reprezentuje prawdopodobieństwo apriori popełnienia błędu typu I, to znaczy odrzucenia hipotezy zerowej przy założeniu, że jest to prawda.