Dialog między nauczycielem a troskliwym uczniem
Pokornie podniósł się w przekonaniu, że w tym wątku do tej pory nie użyto wystarczającej ilości kredek. Na końcu pojawia się krótkie ilustrowane streszczenie.
Student : Co oznacza wartość p? Wydaje się, że wiele osób zgadza się, że istnieje szansa, że „zobaczymy, że próbka jest większa lub równa„ statystyce lub jest to ”prawdopodobieństwo zaobserwowania tego wyniku ... przy założeniu, że hipoteza zerowa jest prawdziwa”, lub gdzie „statystyki mojej próbki spadł na [symulowany] rozkład ”, a nawet „ prawdopodobieństwo zaobserwowania statystyki testowej co najmniej tak dużej, jak obliczona przy założeniu, że hipoteza zerowa jest prawdziwa ” .
Nauczyciel : właściwie zrozumiane, wszystkie te stwierdzenia są poprawne w wielu okolicznościach.
Student : Nie rozumiem, jak większość z nich jest istotna. Czy nie nas, że musimy postawić hipotezę zerową i hipotezę alternatywną ? Jak są zaangażowani w te idee „większe niż lub równe” lub „co najmniej tak duże” lub bardzo popularne „bardziej ekstremalne”?H AH0HA
Nauczyciel : Ponieważ może to ogólnie wydawać się skomplikowane, czy pomógłby nam zbadać konkretny przykład?
Student : Jasne. Ale proszę, uczyń to realistycznym, ale prostym, jeśli możesz.
Nauczyciel : Teoria testowania hipotez historycznie rozpoczęła się od potrzeby astronomów do analizy błędów obserwacyjnych, więc co powiesz na to, aby zacząć od tego. Pewnego dnia przeglądałem stare dokumenty, w których naukowiec opisał swoje wysiłki na rzecz zmniejszenia błędu pomiaru w swoim aparacie. Dokonał wielu pomiarów gwiazdy w znanej pozycji i zarejestrował ich przemieszczenia przed lub za tą pozycją. Aby zwizualizować te przemieszczenia, narysował histogram, który - po lekkim wygładzeniu - wyglądał tak.
Student : Pamiętam, jak działają histogramy: oś pionowa jest oznaczona jako „Gęstość”, aby przypomnieć mi, że względne częstotliwości pomiarów są reprezentowane raczej przez powierzchnię niż wysokość.
Nauczyciel : Zgadza się. „Niezwykła” lub „ekstremalna” wartość byłaby zlokalizowana w regionie o dość małym obszarze. Oto kredka. Czy uważasz, że możesz pokolorować w regionie, którego powierzchnia stanowi zaledwie jedną dziesiątą całości?
Student : Pewnie; to łatwe. [Kolory na rysunku.]
Nauczyciel : Bardzo dobrze! Dla mnie wygląda to na około 10% powierzchni. Pamiętaj jednak, że jedynym obszarem na histogramie, który ma znaczenie, są obszary między liniami pionowymi: reprezentują szansę lub prawdopodobieństwo, że przemieszczenie zostanie zlokalizowane między tymi liniami na osi poziomej. Oznacza to, że trzeba było pokolorować do samego dołu, a to stanowiłoby ponad połowę powierzchni, prawda?
Student : Och, rozumiem. Pozwól mi spróbować ponownie. Chcę pokolorować tam, gdzie krzywa jest naprawdę niska, prawda? Jest najniższy na dwóch końcach. Czy muszę pokolorować tylko w jednym obszarze, czy rozbicie go na kilka części byłoby w porządku?
Nauczyciel : Używanie kilku części to sprytny pomysł. Gdzie oni by byli?
Student (wskazując): Tu i tutaj. Ponieważ ta kredka nie jest zbyt ostra, użyłem długopisu, aby pokazać linie, których używam.
Nauczyciel : Bardzo miło! Pozwól, że opowiem ci resztę historii. Naukowiec wprowadził kilka ulepszeń do swojego urządzenia, a następnie wykonał dodatkowe pomiary. Napisał, że przemieszczenie pierwszego wynosiło zaledwie , co uważał za dobry znak, ale będąc uważnym naukowcem, zaczął sprawdzać kolejne pomiary. Niestety, inne pomiary zostały utracone - rękopis w tym momencie się psuje - i wszystko, co mamy, to jedna liczba, .0,10.10.1
Student : To źle. Ale czy nie jest to o wiele lepsze niż szeroki zakres przemieszczeń na twojej figurze?
Nauczyciel : Na to pytanie chciałbym odpowiedzieć. Na początek, co powinniśmy uznać za ?H0
Uczeń : Cóż, sceptyk zastanawiałby się, czy ulepszenia wprowadzone w urządzeniu w ogóle miały jakiś wpływ. Ciężar dowodu spoczywa na naukowcu: chciałby pokazać, że sceptyk się myli. To sprawia, że uważam hipotezę zerową za coś złego dla naukowca: mówi ona, że wszystkie nowe pomiary - w tym wartość , o której wiemy - powinny zachowywać się tak, jak opisano w pierwszym histogramie. A może nawet gorzej: mogą być jeszcze bardziej rozproszeni.0.1
Nauczyciel : Kontynuuj, masz się dobrze.
Student : A więc alternatywą jest to, że nowe pomiary byłyby mniej rozłożone, prawda?
Nauczyciel : Bardzo dobrze! Czy możesz narysować mi zdjęcie, jak wyglądałby histogram o mniejszej rozpiętości? Oto kolejna kopia pierwszego histogramu; możesz narysować na nim jako odniesienie.
Uczeń (rysunek): Używam pióra do zarysu nowego histogramu i koloruję w obszarze poniżej. Sprawiłem, że większość krzywej jest bliska zeru na osi poziomej, a więc większość jej obszaru jest bliska zerowej wartości (poziomej): to znaczy, że jest mniej rozłożona lub bardziej precyzyjna.
Nauczyciel : To dobry początek. Pamiętaj jednak, że histogram pokazujący szanse powinien mieć łączną powierzchnię . Całkowity obszar pierwszego histogramu wynosi zatem . Ile powierzchni jest w twoim nowym histogramie?111
Student : Myślę, że mniej niż połowa. Widzę, że to problem, ale nie wiem, jak to naprawić. Co powinienem zrobić?
Nauczyciel : Sztuką jest, aby nowy histogram był wyższy niż stary, tak aby jego łączna powierzchnia wynosiła . Tutaj pokażę ci wersję wygenerowaną komputerowo w celu zilustrowania.1
Uczeń : Rozumiem: rozciągnąłeś go w pionie, więc jego kształt tak naprawdę się nie zmienił, ale teraz czerwony obszar i szary obszar (w tym część pod czerwoną) są takie same.
Nauczyciel : Racja. Patrzysz na obraz hipotezy zerowej (niebieska, rozłożona) i część hipotezy alternatywnej (czerwona, mniej rozłożona).
Student : Co rozumiesz przez „część” alternatywy? Nie jest to tylko hipoteza alternatywna?
Nauczyciel : Statystycy i gramatyka wydają się nie mieszać. :-) Poważnie, to, co rozumieją przez „hipotezę”, to zwykle cały zestaw możliwości. Tutaj alternatywą (jak już wcześniej tak dobrze powiedziałeś) jest to, że pomiary są „mniej rozłożone” niż wcześniej. Ale o ile mniej ? Istnieje wiele możliwości. Tutaj pozwól, że pokażę ci inny. Narysowałem go żółtymi kreskami. Jest pomiędzy dwoma poprzednimi.
Uczeń : Widzę: możesz mieć różne wielkości spreadu, ale nie wiesz z góry, ile tak naprawdę będzie spread. Ale dlaczego zrobiłeś zabawne cieniowanie na tym zdjęciu?
Nauczyciel : Chciałem podkreślić, gdzie i jak różnią się histogramy. Cieniowałem je na szaro, gdzie alternatywne histogramy są niższe niż zero, i na czerwono, gdzie alternatywy są wyższe .
Student : Dlaczego miałoby to mieć znaczenie?
Nauczyciel : Czy pamiętasz, jak pokolorowałeś pierwszy histogram na obu ogonach? [Przegląda dokumenty.] Ach, oto jest. Pokolorujmy to zdjęcie w ten sam sposób.
Student : Pamiętam: to są ekstremalne wartości. Znalazłem miejsca, w których gęstość zerowa była tak mała, jak to możliwe i zabarwiona na 10% powierzchni.
Nauczyciel : Opowiedz mi o alternatywach w tych ekstremalnych obszarach.
Uczeń : Trudno to dostrzec, ponieważ kredka to zakryła, ale wygląda na to, że prawie nie ma szans na alternatywę w obszarach, które pokolorowałem. Ich histogramy są skierowane w dół względem osi wartości i nie ma miejsca na żaden obszar pod nimi.
Nauczyciel : Kontynuujmy tę myśl. Gdybym ci hipotetycznie powiedział, że pomiar ma przemieszczenie , i poprosiłbym cię o wybranie jednego z tych trzech histogramów, z którego najprawdopodobniej pochodzi, który by to był?−2
Student : Pierwszy - niebieski. Jest najbardziej rozpowszechniony i jedyny, w którym wydaje się mieć jakiekolwiek szanse na wystąpienie.−2
Nauczyciel : A co z wartością w rękopisie?0.1
Uczeń : Hmmm ... to inna historia. Wszystkie trzy histogramy znajdują się dość wysoko nad ziemią na poziomie .0.1
Nauczyciel : OK, w porządku. Przypuśćmy jednak, że powiedziałem ci, że wartość wynosiła około , na przykład od do . Czy to pomaga odczytać niektóre prawdopodobieństwa z tych wykresów?0 0,20.100.2
Student : Jasne, bo mogę korzystać z obszarów. Muszę tylko oszacować obszary pod każdą krzywą między a . Ale to wygląda dość ciężko.0,200.2
Nauczyciel : Nie musisz iść tak daleko. Czy możesz po prostu powiedzieć, który obszar jest największy?
Student : Oczywiście pod najwyższą krzywą. Wszystkie trzy obszary mają tę samą podstawę, więc im wyższy łuk, tym więcej jest obszaru pod nim i podstawy. Oznacza to, że najwyższy histogram - ten, który narysowałem, z czerwonymi kreskami - jest najbardziej prawdopodobny dla przesunięcia o . Myślę, że rozumiem, do czego zmierzasz, ale jestem trochę zaniepokojony: czy nie muszę patrzeć na wszystkie histogramy wszystkich alternatyw, a nie tylko na jedną lub dwie przedstawione tutaj? Jak mogłem to zrobić?0.1
Nauczyciel : Jesteś dobry w zbieraniu wzorców, więc powiedz mi: gdy aparat pomiarowy jest coraz bardziej precyzyjny, co dzieje się z jego histogramem?
Uczeń : robi się węższy - och, i też musi być wyższy, więc jego całkowita powierzchnia pozostaje taka sama. To sprawia, że porównanie histogramów jest dość trudne. Alternatywne nich są wszystkie wyższe niż null prawo na , to oczywiste. Ale przy innych wartościach czasami alternatywy są wyższe, a czasem niższe! Na przykład [wskazując na wartość bliską ], tutaj mój czerwony histogram jest najniższy, żółty histogram jest najwyższy, a oryginalny histogram zerowy jest między nimi. Ale po prawej stronie zero jest najwyższe.3 / 403/4
Nauczyciel : Ogólnie rzecz biorąc, porównywanie histogramów to skomplikowana sprawa. Aby pomóc nam to zrobić, poprosiłem komputer o wykonanie innego wykresu: podzielił każdą z alternatywnych wysokości histogramu (lub „gęstości”) przez wysokość histogramu zerowego, tworząc wartości znane jako „współczynniki prawdopodobieństwa”. W rezultacie wartość większa niż oznacza, że alternatywa jest bardziej prawdopodobna, podczas gdy wartość mniejsza niż oznacza, że alternatywa jest mniej prawdopodobna. Naszkicował jeszcze jedną alternatywę: jest bardziej rozproszony niż pozostałe dwa, ale wciąż mniej rozproszony niż oryginalny aparat.111
Nauczyciel (kontynuuje): Czy możesz mi pokazać, gdzie alternatywy są bardziej prawdopodobne niż zero?
Uczeń (kolorystyka): Oczywiście w środku. Ponieważ nie są to już histogramy, powinniśmy raczej patrzeć na wysokości, a nie na obszary, więc zaznaczam tylko zakres wartości na osi poziomej. Ale skąd mam wiedzieć, w jakim środku należy pokolorować? Gdzie przestać kolorować?
Nauczyciel : Nie ma twardej zasady. Wszystko zależy od tego, w jaki sposób zamierzamy wykorzystać nasze wnioski i od jak silnych sceptyków. Ale usiądź wygodnie i pomyśl o tym, co osiągnąłeś: teraz zdajesz sobie sprawę, że wyniki z dużym współczynnikiem prawdopodobieństwa są dowodem na alternatywę, a wyniki z niskim współczynnikiem prawdopodobieństwa są dowodem przeciwko alternatywie. Poproszę o wybranie koloru w obszarze, który, o ile jest to możliwe, ma niewielką szansę na wystąpienie pod hipotezą zerową i stosunkowo dużą szansę na pojawienie się pod alternatywnymi rozwiązaniami. Wracając do pierwszego koloru, który pokolorowałeś, na początku naszej rozmowy, pokolorowałeś dwa ogony zerowe, ponieważ były „ekstremalne”. Czy nadal wykonaliby dobrą robotę?
Student : Nie wydaje mi się. Mimo że były dość ekstremalne i rzadkie pod hipotezą zerową, są praktycznie niemożliwe dla żadnej z alternatyw. Gdyby moim nowym pomiarem był, powiedzmy , myślę, że poparłbym sceptycyzm i zaprzeczam, że nastąpiła jakakolwiek poprawa, mimo że był w każdym razie niezwykłym wynikiem. Chcę zmienić tę kolorystykę. Tutaj - pozwól mi wziąć kolejną kredkę.3.03.03.0
Nauczyciel : Co to oznacza?
Uczeń : Zaczęliśmy od tego, że poprosiłeś mnie o narysowanie zaledwie 10% obszaru pod oryginalnym histogramem - tym opisującym zero. Więc teraz narysowałem 10% obszaru, na którym wydaje się, że alternatywy są bardziej prawdopodobne. Myślę, że kiedy nowy pomiar jest w tym obszarze, mówi nam, że powinniśmy wierzyć w alternatywę.
Nauczyciel : A jak sceptyk powinien na to zareagować?
Student : Sceptyk nigdy nie musi przyznać, że się myli, prawda? Ale myślę, że jego wiara powinna być nieco wstrząśnięta. W końcu ustawiliśmy go tak, aby chociaż pomiar mógł znajdować się w obszarze, który właśnie narysowałem, ma on jedynie 10% szansy na obecność, gdy wartość null jest prawdziwa. I ma większą szansę bycia tam, gdy alternatywa jest prawdziwa. Po prostu nie mogę powiedzieć, jak duża jest ta szansa, ponieważ zależy to od tego, jak bardzo naukowiec ulepszył aparat. Wiem tylko, że jest większy. Dowody byłyby zatem przeciwne sceptycznemu.
Nauczyciel : W porządku. Czy mógłbyś podsumować swoje zrozumienie, abyśmy mieli pełną jasność na temat tego, czego się nauczyłeś?
Student : Nauczyłem się, że aby porównać hipotezę alternatywną z hipotezą zerową, powinniśmy porównać ich histogramy. Gęstości alternatyw dzielimy przez gęstość zerową: to właśnie nazywasz „współczynnikiem prawdopodobieństwa”. Aby zrobić dobry test, powinienem wybrać małą liczbę, na przykład 10% lub cokolwiek, co może wystarczyć, aby wstrząsnąć sceptykiem. Następnie powinienem znaleźć wartości, w których współczynnik prawdopodobieństwa jest tak wysoki, jak to możliwe, i pokolorować je, aż 10% (lub cokolwiek) zostanie pokolorowane.
Nauczyciel : A jak użyłbyś tego kolorowania?
Uczeń : Jak przypomniałeś mi wcześniej, kolorystyka musi znajdować się między pionowymi liniami. Wartości (na osi poziomej) leżące pod kolorem są dowodami przeciwko hipotezie zerowej. Inne wartości - cóż, trudno jest powiedzieć, co mogą one oznaczać, bez dokładniejszego spojrzenia na wszystkie zaangażowane histogramy.
Nauczyciel : Wracając do wartości w rękopisie, co byś wyciągnął?0.1
Uczeń : To w obszarze, który ostatnio pokolorowałem, więc myślę, że naukowiec prawdopodobnie miał rację, a aparat naprawdę został ulepszony.
Nauczyciel : Ostatnia rzecz. Twój wniosek opierał się na wybraniu 10% jako kryterium lub „wielkości” testu. Wiele osób lubi zamiast tego używać 5%. Niektórzy wolą 1%. Co mógłbyś im powiedzieć?
Student : Nie mogłem wykonać wszystkich tych testów jednocześnie! Cóż, może mógłbym w jakiś sposób. Widzę, że bez względu na to, jaki rozmiar powinien mieć test, powinienem zacząć kolorowanie od , co jest w tym sensie wartością „najbardziej ekstremalną”, i stamtąd pracować na zewnątrz w obu kierunkach. Gdybym miał zatrzymać się dokładnie na - wartość faktycznie zaobserwowana - myślę, że zabarwiłbym obszar w zakresie od do , powiedzmy . 5% i 1% ludzi mogło od razu powiedzieć, że ja za dużo pokolorowałem: gdyby chcieli pokolorować tylko 5% lub 1%, mogliby, ale nie dostaliby tak daleko, jak0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Nie dojdą do tego samego wniosku, co ja: powiedzieliby, że nie ma wystarczających dowodów na to, że rzeczywiście nastąpiła zmiana.
Nauczyciel : Właśnie powiedziałeś mi, co naprawdę oznaczają te wszystkie cytaty na początku . Z tego przykładu powinno być oczywiste, że nie mogą one być „bardziej ekstremalne”, „większe niż lub równe” lub „co najmniej tak duże” w sensie posiadania większej wartości lub nawet wartości, w której gęstość zerowa jest mała. Naprawdę mają na myśli te rzeczy w sensie dużych prawdopodobieństw , które opisałeś. Nawiasem mówiąc, liczba około , którą obliczyłeś, nazywa się „wartością p”. Można to właściwie zrozumieć tylko tak, jak to opisałeś: w odniesieniu do analizy względnych wysokości histogramu - ilorazów prawdopodobieństwa.0.08
Student : Dziękuję. Nie jestem pewien, czy w pełni to wszystko rozumiem, ale dałeś mi wiele do przemyślenia.
Nauczyciel : Jeśli chcesz pójść dalej, spójrz na lemat Neyman-Pearson . Prawdopodobnie jesteś teraz gotowy to zrozumieć.
Streszczenie
Wiele testów opartych na jednej statystyce, takiej jak ta w oknie dialogowym, nazywa to „ ” lub „ ”. Są to sposoby na wskazanie, jak wygląda histogram zerowy, ale są jedynie wskazówkami: to, jak nazywamy ten numer, nie ma tak naprawdę znaczenia. Konstrukcja podsumowana przez ucznia, jak pokazano tutaj, pokazuje, jak jest ona powiązana z wartością p. Wartość p jest najmniejszym rozmiarem testu, który spowodowałby, że obserwacja prowadziłaby do odrzucenia hipotezy zerowej.t t = 0,1ztt=0.1
Na tym rysunku, który jest powiększony, aby pokazać szczegóły, hipoteza zerowa jest wykreślona na niebiesko, a dwie typowe alternatywy są wykreślone liniami przerywanymi. Obszar, w którym te alternatywy wydają się być znacznie większe niż zero, jest zacieniony. Cieniowanie rozpoczyna się tam, gdzie względne prawdopodobieństwa alternatyw są największe (przy ). Cieniowanie ustaje po osiągnięciu obserwacji . Wartość p jest obszarem zacienionego obszaru pod histogramem zerowym: jest to szansa, przy założeniu, że zerowa jest prawdziwa, zaobserwowania wyniku, którego współczynniki prawdopodobieństwa są zwykle duże, niezależnie od tego, która alternatywa jest prawdziwa. W szczególności ta konstrukcja zależy ściśle od alternatywnej hipotezy. Nie można tego zrobić bez określenia możliwych alternatyw.t = 0,10t=0.1