W wnioskowaniu częstym chcemy ustalić, jak często coś by się działo, gdyby dany proces stochastyczny był wielokrotnie realizowany. To jest punkt wyjścia dla teorii wartości p, przedziałów ufności i tym podobnych. Jednak w wielu zastosowanych projektach proces „dany” nie jest tak naprawdę podany, a statystyk musi wykonać przynajmniej pewną pracę, określając go i modelując. Może to być zaskakująco niejednoznaczny problem, jak w tym przypadku.
Modelowanie procesu generowania danych
Na podstawie podanych informacji wydaje się, że naszym najlepszym kandydatem jest:
- Jeśli miernik 100 V odczytuje 100 V, inżynier dokonuje pomiaru za pomocą miernika 1000 V, jeśli jest on sprawny. W przeciwnym razie po prostu zaznacza 100 V i idzie dalej.
Ale czy to nie jest niesprawiedliwe dla naszego inżyniera? Zakładając, że jest inżynierem, a nie tylko technikiem, prawdopodobnie rozumie, dlaczego musi dokonać ponownego pomiaru, gdy pierwszy miernik wskazuje 100 V. dzieje się tak, ponieważ miernik jest nasycony w górnej granicy zakresu, a zatem nie jest już niezawodny. Być może inżynier naprawdę by to zrobił
- Jeśli miernik 100 V odczytuje 100, inżynier dokonuje pomiaru za pomocą miernika 1000 V, jeśli jest on sprawny. W przeciwnym razie po prostu zaznacza 100 V, dodaje znak plus, aby wskazać pomiar nasycenia, i idzie dalej.
Oba te procesy są zgodne z danymi, które posiadamy, ale są to różne procesy i dają różne przedziały ufności. Proces 2 jest tym, który wolelibyśmy jako statystycy. Jeśli napięcia są często znacznie powyżej 100 V, Proces 1 ma potencjalnie katastrofalny tryb awarii, w którym pomiary są czasami poważnie niedoszacowane, ponieważ dane są cenzurowane bez naszej wiedzy. Przedział ufności odpowiednio się powiększy. Możemy to złagodzić, prosząc inżyniera, aby powiedział nam, kiedy jego miernik 1000V nie działa, ale tak naprawdę jest to po prostu kolejny sposób zapewnienia zgodności naszych danych z Procesem 2.
Jeśli koń opuścił już stodołę i nie możemy ustalić, kiedy pomiary są i nie są cenzurowane, możemy spróbować wywnioskować z danych czasy, kiedy miernik 1000 V nie działa. Wprowadzając do procesu regułę wnioskowania, skutecznie tworzymy nowy Proces 1.5, odrębny zarówno od 1, jak i 2. Nasza zasada wnioskowania czasami działała, a czasem nie, więc przedział ufności z Procesu 1.5 byłby pośredni w porównaniu do Procesów 1 i 2)
Teoretycznie nie ma nic złego ani podejrzanego w tym, że pojedyncza statystyka ma trzy różne przedziały ufności związane z trzema różnymi, prawdopodobnie reprezentatywnymi procesami stochastycznymi. W praktyce niewielu konsumentów statystyk chce trzech różnych przedziałów ufności. Chcą takiego, który opiera się na tym, co by się faktycznie wydarzyło, gdyby eksperyment powtórzono wiele razy. Tak więc typowo statystyczny badacz bierze pod uwagę wiedzę zdobytą w trakcie projektu, zgaduje i przedstawia przedział ufności związany z odgadywanym przez siebie procesem. Lub współpracuje z klientem w celu sformalizowania procesu, więc nie musisz zgadywać, że pójdziesz dalej.
Jak odpowiedzieć na nowe informacje
Pomimo nacisków statystyki w tej historii, częste wnioskowanie nie wymaga powtarzania pomiarów, gdy zdobywamy nowe informacje sugerujące, że generowanie procesu stochastycznego nie jest dokładnie tym, co pierwotnie planowaliśmy. Jeśli jednak proces ma się powtarzać, musimy upewnić się, że wszystkie powtórzenia są zgodne z procesem modelowym przyjętym przez przedział ufności. Możemy to zrobić, zmieniając proces lub zmieniając jego model.
Jeśli zmienimy proces, być może będziemy musieli odrzucić przeszłe dane, które zostały zebrane niespójnie z tym procesem. Nie stanowi to jednak problemu, ponieważ wszystkie rozważane przez nas warianty procesu różnią się tylko wtedy, gdy niektóre dane są powyżej 100 V, a to nigdy nie miało miejsca w tym przypadku.
Cokolwiek robimy, model i rzeczywistość muszą zostać dostosowane. Tylko wtedy teoretycznie gwarantowany częstość błędów częstokroć będzie tym, co klient faktycznie uzyska po wielokrotnym wykonaniu procesu.
Bayesowska alternatywa
Z drugiej strony, jeśli wszystko, na czym nam naprawdę zależy, to prawdopodobny zakres prawdziwej średniej dla tej próbki, powinniśmy całkowicie odłożyć na bok częstość i poszukać ludzi, którzy sprzedają odpowiedź na to pytanie - Bayesian. Jeśli pójdziemy tą drogą, wszelkie targowanie się na scenariusz alternatywny staje się nieistotne; liczy się tylko pierwszeństwo i prawdopodobieństwo. W zamian za to uproszczenie tracimy wszelką nadzieję na zagwarantowanie poziomu błędu przy wielokrotnym przeprowadzaniu „eksperymentu”.
Dlaczego zamieszanie?
Ta historia została skonstruowana tak, aby wyglądała jak statystyczny fuzjonista bez powodu kłóci się o głupie rzeczy. Szczerze mówiąc, komu zależy na tych głupich scenariuszach alternatywnych? Oczywiście odpowiedź brzmi: wszyscy powinni się tym przejmować. Na niezwykle ważne dziedziny naukowe cierpi obecnie poważny kryzys replikacji , co sugeruje, że częstotliwość fałszywych odkryć jest znacznie wyższa niż oczekiwano w literaturze naukowej. Jednym z czynników tego kryzysu, choć w żadnym wypadku nie jedynym , jest wzrost hakowania p , który ma miejsce, gdy badacze bawią się wieloma odmianami modelu, kontrolując różne zmienne, aż do uzyskania znaczenia.
Hakowanie P zostało szeroko oczernione w popularnych mediach naukowych i blogosferze, ale niewielu faktycznie rozumie, co jest złego w hakowaniu P i dlaczego. W przeciwieństwie do popularnej opinii statystycznej, nie ma nic złego w patrzeniu na twoje dane przed, podczas i po procesie modelowania. Złe jest to, że nie zgłosili analiz eksploracyjnych i jak wpłynęli na przebieg badań. Tylko patrząc na pełny proces możemy nawet ustalić, który model stochastyczny jest reprezentatywny dla tego procesu i jaka analiza częstościowa jest odpowiednia dla tego modelu, jeśli taki istnieje.
Twierdzenie, że pewna częsta analiza jest odpowiednia, jest bardzo poważnym twierdzeniem. Stwierdzenie tego oznacza, że wiążesz się z dyscypliną wybranego przez ciebie stochastycznego procesu, który pociąga za sobą cały system scenariuszy alternatywnych na temat tego, co zrobiłbyś w różnych sytuacjach. Musisz faktycznie dostosować się do tego systemu, aby gwarancja dla częstych osób miała do ciebie zastosowanie. Bardzo niewielu badaczy, zwłaszcza tych, którzy podkreślają otwartą eksplorację, jest zgodnych z systemem i nie zgłasza skrupulatnie swoich odchyleń; właśnie dlatego mamy teraz kryzys replikacji. (Niektórzy szanowani badacze twierdzili, że to oczekiwanie jest nierealne, stanowisko, które popieram, ale wykracza poza zakres tego postu).
Może się wydawać niesprawiedliwe, że krytykujemy publikowane artykuły na podstawie twierdzenia o tym, co by zrobiły, gdyby dane były inne. Ale taka jest (nieco paradoksalna) natura argumentacji częstokroć: jeśli zaakceptujesz pojęcie wartości p, musisz uszanować zasadność modelowania tego, co można by zrobić przy alternatywnych danych. (Gelman i Loken, 2013)
W badaniach, które są stosunkowo proste i / lub znormalizowane, takich jak badania kliniczne, możemy dostosować się do takich rzeczy, jak wielokrotne lub sekwencyjne porównania i utrzymać teoretyczny poziom błędu; w bardziej złożonych i eksploracyjnych badaniach model częsty może nie mieć zastosowania, ponieważ badacz może nie być w pełni świadomy wszystkich podejmowanych decyzji , nie mówiąc już o ich wyraźnym zapisaniu i przedstawieniu. W takich przypadkach badacz powinien (1) być uczciwy i szczery w kwestii tego, co zostało zrobione; (2) prezentują wartości p albo z silnymi zastrzeżeniami, albo wcale; (3) rozważyć przedstawienie innych linii dowodowych, takich jak wcześniejsza wiarygodność hipotezy lub dalsze badanie replikacji.