Badacz 1 przeprowadza 1000 regresji, badacz 2 prowadzi tylko 1, oba osiągają takie same wyniki - czy powinny dokonywać różnych wniosków?

Wyobraź sobie, że badacz bada zbiór danych i przeprowadza 1000 różnych regresji i znajduje między nimi jedną interesującą relację.

Teraz wyobraź sobie, że inny badacz z tymi samymi danymi wykonuje tylko 1 regresję i okazuje się, że jest to ta sama, którą drugi badacz wziął 1000 regresji, aby ją znaleźć. Badacz 2 nie zna badacza 1.

Czy badacz 1 powinien dokonywać innych wniosków niż badacz 2? Dlaczego? Na przykład, czy badacz 1 powinien dokonać korekty wielokrotnych porównań, ale badacz 2 nie powinien?

Jeśli badacz 2 pokazałby ci najpierw swoją pojedynczą regresję, jakie wnioski byś wyciągnął? Jeśli po tym badaczu 1 pokazał ci swoje wyniki, czy powinieneś zmienić swoje wnioski? Jeśli tak, dlaczego miałoby to mieć znaczenie?

PS 1 : Jeśli mówienie o hipotetycznych badaczach sprawia, że problem jest abstrakcyjny, pomyśl o tym: wyobraź sobie, że wykonałeś tylko jedną regresję dla swojego papieru, używając najlepszej dostępnej metody. Następnie inny badacz zbadał 1000 różnych regresji z tymi samymi danymi, dopóki nie znalazł dokładnie tej samej regresji, którą prowadziłeś . Czy powinniście robić różne wnioski? Czy dowody są takie same w obu przypadkach, czy nie? Czy powinieneś zmienić swoje wnioskowanie, jeśli znasz wyniki innych badaczy? Jak społeczeństwo powinno ocenić dowody z dwóch badań?

PS 2: staraj się być konkretny i podać matematyczne / teoretyczne uzasadnienie, jeśli to możliwe!

— statslearner
źródło

Aby być prawidłowym porównaniem, musisz podać wszystkie hipotezy zerowe i alternatywne. Badacz 2 może przetestować tylko 1 hipotezę, podczas gdy Badacz 1 prawdopodobnie chce kontrolować prawdopodobieństwo, że nie popełnisz błędu 1 typu 1 na 1000. Jeśli jest to jednoczesne wnioskowanie, które chcesz zrobić, musisz dokonać korekty wartości p. Badacz 2 ma jeden test i nie wymaga regulacji. Czy dla badacza 1 dopasowujesz różne modele do tych samych danych, czy jeden model pasuje do każdego z 1000 zestawów danych?

— Michael R. Chernick,

@MichaelChernick jest tylko jeden zestaw danych. Badacz 1 pasuje do 1000 modeli dla tego samego zbioru danych, dopóki nie znajdzie tego, który mu się podoba. Badacz 2 pasuje tylko 1. Obaj badacze korzystają z tych samych danych. Czy powiedziałbyś, że ci dwaj badacze musieliby wyciągać różne wnioski z tego samego zestawu danych? Badacz 2 powinien mieć słuszne zaufanie do swojej analizy, podczas gdy badacz 1 powinien zawyżać swoje wartości p / przedziały ufności z powodu wielu porównań?

— statslearner

Jeśli podążysz za moim argumentem, robią to w tym sensie, że tylko badacz 2 testuje pojedynczą hipotezę, podczas gdy badacz 1 testuje 1000 hipotez i musi kontrolować wszystkie testowane hipotezy. Obejmuje to dwa różne problemy. Nadal niejasne jest to, co rozumiesz przez „znalezienie tylko jednego interesującego związku”. Może myślisz, że stworzyłeś sytuację paradoksalną. Nie sądzę, że masz.

— Michael R. Chernick,

@MichaelChernick, jak to nie paradoks dla tych samych danych z dokładnie tym samym modelem prowadzi do dwóch różnych wniosków? Jeśli przeczytacie dwa osobne artykuły, co byście wyciągnęli?

— statslearner

@MichaelChernick Zrobiłem to i mam problem, że uważasz, że to jest poprawne --- dokładnie te same dane, z tym samym modelem, prowadząc do dwóch różnych wniosków. Zobacz moje komentarze do odpowiedzi.

— statslearner

Odpowiedzi:

$1000$

$P (M_k|I_1)=\frac {1}{1000}$ $P (M_1|I_2) =1$ $M_1$

$M_1$ $P (M_1|DI)>>P (M_1|I)$ $999$ $1$ $M_1$ $1000$ $1000$ $0$ $p-value <10^{-8}$

$100$ $10$ $2,000,000$

Nie ma nic zasadniczo złego w przypadku dwóch osób, które zaczynają od różnych informacji i nadal mają różne wnioski po zobaczeniu tych samych danych. Jednak ... oglądanie tych samych danych zbliży ich do siebie, pod warunkiem, że ich „przestrzeń modelu” nakłada się, a dane obsługują ten „nakładający się region”.

— prawdopodobieństwo prawdopodobieństwa
źródło

Tak więc podstawową częścią twojego twierdzenia jest to, że powinni dokonywać różnych wniosków, ponieważ mają różne priorytety, a nie dlatego, że „badali dane”, prawda?

— statslearner

Nawiasem mówiąc, w jaki sposób możesz ocenić dowody? Czy zależy Ci na tym, ile modeli badacz 1 pasuje? Jeśli tak, to dlaczego?

— statslearner

Nie musiałbym koniecznie dbać o liczbę pasujących modeli, ale to, czy użyty model jest znany, czy nie. Jak krótko wspomnę, chciałbym wiedzieć, czy istnieją rozsądne alternatywy. Na przykład, jeśli badacz 1 podejmie decyzję „liniowej kuli” o upuszczeniu / dodaniu zmiennej, chciałbym zobaczyć tę informację.

— probabilityislogic

Dlaczego miałbyś chcieć to zobaczyć, czy to w jakiś sposób zmieniłoby twoje wcześniejsze? Czy używasz go jako pełnomocnika dla ciebie wcześniej? Nie jest dla mnie jasne, jakie tworzysz mapowanie. Dlaczego powody konkretnego badacza mają znaczenie dla twojego wnioskowania, skoro w ogóle nie wpływa na proces generowania danych?

— statslearner

Uważamy, że zestaw danych tutaj jest zewnętrzny dla badacza, on go nie zebrał, a obaj badacze używają tych samych danych. Wydaje się, że przyczyny ustalenia nie mogą być replikowane w psychologii jest bo po prostu używać luźnych progi istotności, jak na standard dowodów ocenić kilka szaloną hipotezę każda rozsądna osoba / naukowiec będzie ich znaleźć a priori śmieszne. Weźmy nasz przypadek tutaj, jeśli hipoteza przetestowana w naszym przykładzie jest czymś absurdalnym z taką siłą, czy miałoby to znaczenie, czy przeprowadziliśmy 1 czy 1000 regresji?

— statslearner

Interpretacja statystyczna jest znacznie mniej jasna niż, o co prosisz, matematyczne traktowanie.

Matematyka dotyczy jasno określonych problemów. Np. Rzucanie idealną kostką lub wyciąganie piłek z urny.

Statystyka jest stosowana w matematyce, gdzie matematyka stanowi wskazówkę, ale nie jest (dokładnym) rozwiązaniem.

W tym przypadku oczywiste jest, że okoliczności odgrywają ważną rolę. Jeśli wykonamy regresję, a następnie obliczymy (matematykę) pewną wartość p, aby wyrazić siłę, to jaka jest interpretacja (statystyka) i wartość wartości p?

W przypadku 1000 regresji wykonanych przez badacza 1 wynik jest znacznie słabszy, ponieważ tego rodzaju sytuacja ma miejsce, gdy tak naprawdę nie mamy pojęcia i po prostu badamy dane. Wartość p jest tylko wskazówką, że może być coś.

Tak więc wartość p jest oczywiście mniej warta w regresji wykonanej przez badacza 1. A jeśli badacz 1 lub ktoś wykorzystujący wyniki badacza 1 chciałby coś zrobić z regresją, wartość p musi zostać skorygowana. (a jeśli uważasz, że różnica między badaczem 1 a badaczem 2 nie była wystarczająca, po prostu pomyśl o mnogości sposobów, w jakie badacz 1 może poprawić wartość p dla wielu porównań)
W przypadku pojedynczej regresji przeprowadzonej przez badacza 2 wynik jest znacznie silniejszym dowodem. Ale to dlatego, że regresja sama w sobie nie stoi. Musimy podać powody, dla których badacz 2 dokonał tylko jednej regresji. Może to wynikać z tego, że miał dobre (dodatkowe) powody, by już wierzyć, że regresja pojedyncza jest dobrym modelem dla danych.
Ustawienie regresji przeprowadzanych przez badacza 1 i 2 jest bardzo różne i nierzadko napotyka się je jednocześnie w tym samym czasie . Jeśli tak jest, to albo
- badacz 2 miał dużo szczęścia
  
  Nie jest to rzadkie i powinniśmy to poprawić przy interpretacji literatury, a także powinniśmy poprawić publikowanie całościowego obrazu badań. Jeśli istnieje tysiąc badaczy, takich jak badacz 2, i zobaczymy, że tylko jeden z nich opublikuje sukces, to dlatego, że nie widzieliśmy porażek pozostałych 999 badaczy, moglibyśmy błędnie uwierzyć, że nie mieliśmy przypadku takiego jak badacz 1
- badacz 1 nie był tak sprytny i przeprowadził niewiarygodnie zbędne poszukiwanie jakiejś regresji, podczas gdy mógł od początku wiedzieć, że powinna to być ta pojedyncza reguła, i mógł wykonać silniejszy test.
  
  Osoby z zewnątrz, które są mądrzejsze od badacza 1 (nie przejmują się dodatkowymi 999 regresjami od samego początku) i czytają o pracy, mogą zwiększyć siłę znaczenia wyników, jednak nadal nie tak silne, jak zrobiłby dla wynik naukowca 2.
  
  Chociaż badacz 1 mógł być zbyt konserwatywny przy korekcie o 999 zbędnych dodatkowych regresji, nie możemy zignorować faktu, że badania przeprowadzono w próżni wiedzy i jest znacznie bardziej prawdopodobne, że znajdzie się szczęśliwy badacz typu 1 niż typ 2)

Interesująca pokrewna historia: w astronomii, kiedy planowali lepszy instrument do pomiaru tła kosmicznego z większą precyzją, byli badacze, którzy argumentowali, że opublikują tylko połowę danych. Jest tak, ponieważ istnieje tylko jeden strzał do zebrania danych. Po wykonaniu wszystkich regresji przez dziesiątki różnych badaczy (a ze względu na niewiarygodną różnorodność i kreatywność teoretyka, z pewnością istnieje możliwość dopasowania każdej możliwej, losowej, nierówności w danych), nie ma możliwości wykonania nowy eksperyment do zweryfikowania (to znaczy, chyba że jesteś w stanie wygenerować zupełnie nowy wszechświat).

— Sextus Empiricus
źródło

+1 za @MartijnWeterings, jak powiedziałem w moich komentarzach, że problem nie został dobrze postawiony matematycznie. Odniosłem wrażenie, że OP pomyślał, że istnieje paradoks, ponieważ ponieważ dwóch badaczy zostanie poprowadzonych do wyboru tego samego modelu, ale ten wykonujący 1000 regresji jest karany z powodu potrzeby wielokrotnego porównania. Nie uważam tego za paradoks (nie jest jasne, ale myślę, że OP to zrobiło). Podałeś bardzo pięknie napisaną i poprawną odpowiedź, która również intuicyjnie wyjaśnia, dlaczego oba przypadki są różne. Myślę, że PO powinien dać twoją odpowiedź do sprawdzenia!

— Michael R. Chernick,

\neq

$\neq$

Wiem też, że jest to powszechna praktyka, ale czy nie uważasz, że jeden wynik jest „silniejszym dowodem” niż drugi, gdy są one dokładnie tym samym modelem i danymi z tego samego procesu generowania danych? Jedyną różnicą jest to, jak bardzo strona trzecia spojrzała na dane, i nie powinno to mieć żadnego związku z samym MZD lub twoimi wcześniejszymi przekonaniami na temat problemu. Czy na przykład analiza badacza 2 powinna zostać skażona ignorancją badacza 1?

— statslearner

@MartijnWeterings dlaczego intencja badacza powinna mieć znaczenie dla interpretacji danych? Jeśli używasz tego jako heurystyki, jako laika interpretującego wynik eksperta, to jest w porządku. Ale dla naukowca analizującego dane wydaje się, że intencja badacza nie powinna mieć wpływu na twoją interpretację dowodów.

— statslearner

Wygląda więc na to, że używasz zachowania badacza jako pełnomocnika swojego przeora. Gdyby badacz przeprowadził 1000 regresji, odpowiadałoby to wartości niskiej przed tą konkretną hipotezą. Gdyby pobiegł tylko 1, odpowiadałoby to wysokiemu pierwszeństwu tej hipotezy. Jeśli miałeś dwa przypadki, to nie wiesz, które przed użyciem.

— statslearner

Krótka historia: nie mamy wystarczających informacji, aby odpowiedzieć na twoje pytanie, ponieważ nie wiemy nic o zastosowanych metodach ani zebranych danych.

Długa odpowiedź ... Prawdziwe pytanie brzmi, czy każdy badacz robi:

ścisła nauka
rygorystyczna pseudonauka
eksploracja danych
pogłębianie lub hakowanie danych

Ich metody określą siłę interpretacji ich wyników. Jest tak, ponieważ niektóre metody mają mniej dźwięku niż inne.

W rygorystycznej nauce opracowujemy hipotezę, identyfikujemy mylące zmienne, opracowujemy kontrole zmiennych poza naszą hipotezą, planujemy metody testowe, planujemy naszą metodologię analityczną, wykonujemy testy / zbieramy dane, a następnie analizujemy dane. (Należy pamiętać, że metody analityczne są planowane przed rozpoczęciem testu). Jest to najbardziej rygorystyczne, ponieważ musimy zaakceptować dane i analizy, które nie są zgodne z hipotezą. Niedopuszczalna jest zmiana metod po uzyskaniu czegoś interesującego. Każda nowa hipoteza z ustaleń musi ponownie przejść ten sam proces.

W pseudonauce często bierzemy dane, które już zostały zebrane. Jest to trudniejsze w użyciu etycznym, ponieważ łatwiej jest dodać uprzedzenia do wyników. Nadal jednak można stosować naukową metodę dla etycznych analityków. Ustanowienie odpowiednich kontroli może być jednak trudne i należy to zbadać i odnotować.

Eksploracja danych nie opiera się na nauce. Nie ma konkretnej hipotezy. Nie ma a priori oceny czynników zakłócających. Ponadto trudno jest cofnąć się i ponownie wykonać analizę przy użyciu tych samych danych, ponieważ wyniki mogą zostać skażone wcześniejszą wiedzą lub modelowaniem i nie ma żadnych nowych danych do wykorzystania w celu walidacji. Zaleca się rygorystyczny eksperyment naukowy w celu wyjaśnienia możliwych związków wynikających z analizy eksploracyjnej.

Pogłębianie danych lub hakowanie P to sytuacja, w której „analityk” wykonuje wiele testów w nadziei na nieoczekiwaną lub nieznaną odpowiedź lub manipuluje danymi, aby uzyskać wynik. Wyniki mogą być prostym zbiegiem okoliczności, mogą wynikać z mylących zmiennych (zmiennych) lub mogą nie mieć znaczącego wpływu na wielkość lub moc.

Istnieją pewne środki zaradcze na każdy problem, ale środki te należy dokładnie ocenić.

— Adam Sampson
źródło

Wierzę, że dodajesz niepotrzebny hałas do pytania. Załóżmy, że zastosowali najlepsze dostępne metody. Dane nie zostały zebrane przez nich, ale przez agencję statystyczną, więc nie mieli kontroli nad gromadzeniem danych. Jedyną różnicą jest to, jak bardzo każdy badacz badał dane. Jeden z nich dużo eksplorował, drugi tylko raz. Oba otrzymują ten sam ostateczny model z tymi samymi danymi. Czy powinni dokonywać różnych wniosków? Jak powinno to wpłynąć na twoje wnioskowanie?

— statslearner

To nie jest dodatkowy hałas. Matematyka to matematyka. Jeśli modele są identyczne, to są one identyczne. Sposób interpretacji modeli zależy od wszystkich innych zmiennych nieuwzględnionych w twoim problemie. Jeśli zignorujesz cały inny kontekst i projekt lub eksperymenty, odpowiedź jest prosta, oba modele działają równie matematycznie i oba są słabe naukowo.

— Adam Sampson,