Myślę, że to bardzo dobre pytanie; dociera do sedna spornego „problemu” wielokrotnego testowania, który nęka dziedziny od epidemiologii po ekonometrię. Po tym wszystkim, w jaki sposób można się dowiedzieć, czy znaczenie znajdujemy jest fałszywy czy nie? Jak prawdziwy jest nasz model wielowymiarowy?
Jeśli chodzi o techniczne podejście do wyrównania prawdopodobieństwa opublikowania zmiennych hałasu, serdecznie zgodziłbym się z „whuber”, że użycie części próbki jako danych treningowych, a reszty jako danych testowych, jest dobrym pomysłem. To podejście jest omawiane w literaturze technicznej, więc jeśli poświęcisz trochę czasu, prawdopodobnie znajdziesz dobre wytyczne dotyczące tego, kiedy i jak z niego korzystać.
Aby jednak bardziej bezpośrednio odnieść się do filozofii wielokrotnych testów, sugeruję przeczytanie artykułów, do których się odwołuję poniżej, z których niektóre potwierdzają stanowisko, że dostosowanie do wielokrotnych testów jest często szkodliwe (siła kosztów), niepotrzebne, a może nawet być logicznym błędem . Z jednej strony nie akceptuję automatycznie twierdzenia, że nasza zdolność do badania jednego potencjalnego predyktora jest nieuchronnie ograniczona przez badanie innego. Rodzina mądry Type 1 stopa błędów może wzrosnąć ponieważ zawierają więcej czynników predykcyjnych w danym modelu, ale tak długo, jak nie wykraczają poza granice naszej wielkości próby, prawdopodobieństwo błędu typu 1 dla każdej osobypredyktor jest stały; a kontrolowanie błędu rodzinnego nie oświeca, która konkretna zmienna jest szumem, a która nie. Oczywiście istnieją również przekonujące kontrargumenty.
Tak więc, dopóki ograniczysz listę potencjalnych zmiennych do tych, które są prawdopodobne (tj. Znałyby ścieżki do wyniku), ryzyko fałszywości jest już dość dobrze obsługiwane.
Dodałbym jednak, że model predykcyjny nie dotyczy tak „wartości prawdziwości” jego predyktorów, jak model przyczynowy ; w modelu może występować wiele nieporozumień, ale dopóki wyjaśniamy duży stopień wariancji, nie martwimy się zbytnio. Ułatwia to pracę, przynajmniej w jednym sensie.
Twoje zdrowie,
Brenden, konsultant biostatystyczny
PS: możesz chcieć wykonać zerowaną regresję Poissona dla opisywanych danych, zamiast dwóch osobnych regresji.
- Perneger, TV Co jest nie tak z dostosowaniami Bonferroni . BMJ 1998; 316: 1236
- Cook, RJ i Pożegnanie, VT Zagadnienia dotyczące różnorodności w projektowaniu i analizie badań klinicznych . Journal of Royal Statistics Society , Series A 1996; Vol. 159, nr 1: 93–110
- Rothman, KJ Nie ma potrzeby dokonywania korekt dla wielu porównań . Epidemiologia 1990; Vol. 1, nr 1: 43–46
- Marshall, JR Pogłębianie danych i godne uwagi . Epidemiologia 1990; Vol. 1, nr 1: 5-7
- Czasami przydatne są korekty Greenland, S. i Robins, JM Empirical-Bayes dla wielu porównań . Epidemiologia 1991; Vol. 2, nr 4: 244–251