Wydaje mi się, że twoje pytanie dotyczy bardziej odmiennego sposobu walidacji modelu predykcyjnego: walidacja krzyżowa ma nieco więcej wspólnego z wewnętrzną trafnością lub przynajmniej z początkowym etapem modelowania, podczas gdy rysowanie związków przyczynowych na większej populacji jest bardziej powiązane do zewnętrznej ważności. Przez to (i jako aktualizację po ładnej uwadze @ Bretta) mam na myśli, że zwykle budujemy model na działającej próbce, zakładając hipotetyczny model koncepcyjny (tj. Określamy związki między predyktorami a interesującymi wynikami), i staramy się uzyskać wiarygodne szacunki przy minimalnym poziomie błędu klasyfikacji lub minimalnym błędzie prognozy. Mamy nadzieję, że im lepsza wydajność modelu, tym lepiej pozwoli nam przewidzieć wynik (wyniki) na podstawie niewidzialnych danych; mimo to CV nie mówi nic o „trafności” ani adekwatności hipotetycznych związków przyczynowych. Z pewnością moglibyśmy osiągnąć przyzwoite wyniki za pomocą modelu, w którym niektóre efekty moderacji i / lub mediacji są zaniedbywane lub po prostu nie są znane z góry.
Chodzi mi o to, że niezależnie od metody, której używasz do walidacji modelu (i metoda wstrzymania na pewno nie jest najlepsza, ale nadal jest szeroko stosowana w badaniach epidemiologicznych w celu złagodzenia problemów wynikających z budowania modelu krokowego), pracujesz z tą samą próbą (który, jak zakładamy, jest reprezentatywny dla większej populacji). Wręcz przeciwnie, uogólnienie wyników i powiązań przyczynowych wywnioskowanych w ten sposób na nowych próbkach lub prawdopodobnej pokrewnej populacji zwykle odbywa się poprzez badania replikacji . Zapewnia to, że możemy bezpiecznie przetestować zdolność prognostyczną naszego modelu w „superpopulacji”, która charakteryzuje się większym zakresem poszczególnych odmian i może wykazywać inne potencjalne czynniki zainteresowania.
Twój model może zapewniać prawidłowe prognozy dla twojej roboczej próbki i obejmuje wszystkie potencjalne czynniki zakłócające, o których mogłeś pomyśleć; możliwe jest jednak, że nie będzie on działał tak dobrze z nowymi danymi, tylko dlatego, że na pośredniej ścieżce przyczynowej pojawiają się inne czynniki, które nie zostały zidentyfikowane podczas budowania modelu początkowego. Może się to zdarzyć, jeśli niektóre z predyktorów i wyprowadzone z nich związki przyczynowe zależą na przykład od konkretnego ośrodka badawczego, w którym rekrutowano pacjentów.
W epidemiologii genetycznej wiele badań asocjacyjnych obejmujących cały genom nie powiela się tylko dlatego, że próbujemy modelować złożone choroby z nadmiernie uproszczonym poglądem na związki przyczynowe między markerami DNA a obserwowanym fenotypem, podczas gdy jest bardzo prawdopodobne, że gen-gen (epistaza), choroby genowe (pleiotropia), środowisko genowe i podstruktury populacji wchodzą w grę, ale patrz na przykład Walidacja, zwiększanie i udoskonalanie sygnałów asocjacyjnych całego genomu(Ioannidis i in., Nature Reviews Genetics, 2009 10). Możemy więc zbudować model wydajności, aby uwzględnić zaobserwowane różnice krzyżowe między zestawem markerów genetycznych (o bardzo niskim i rzadkim rozmiarze efektu) a wielowymiarowym wzorem obserwowanych fenotypów (np. Objętość substancji białej / szarej lub zlokalizowane aktywności w mózgu obserwowane za pomocą fMRI, odpowiedzi na ocenę neuropsychologiczną lub inwentaryzację osobowości), nadal nie będą działać zgodnie z oczekiwaniami na niezależnej próbce.
Jeśli chodzi o ogólne odniesienie do tego tematu, można polecić rozdział 17 i część III modeli prognozowania klinicznego , autorstwa EW Steyerberga (Springer, 2009). Podoba mi się również następujący artykuł od Ioannidis:
Ioannidis, JPA, Dlaczego większość opublikowanych wyników badań jest fałszywa? PLoS Med. 2005 2 (8): e124