Jak poradzić sobie z analizą danych eksploracyjnych i pogłębianiem danych w badaniach na małych próbach?


25

Analiza danych eksploracyjnych (EDA) często prowadzi do eksploracji innych „ścieżek”, które niekoniecznie należą do początkowego zestawu hipotez. Taką sytuację mam w przypadku badań z ograniczoną wielkością próby i dużą ilością danych zebranych za pomocą różnych kwestionariuszy (dane społeczno-demograficzne, skale neuropsychologiczne lub medyczne - np. Funkcjonowanie psychiczne lub fizyczne, poziom depresji / lęku, lista kontrolna objawów ). Zdarza się, że EDA pomaga uwypuklić niektóre nieoczekiwane relacje („nieoczekiwane”, co oznacza, że ​​nie zostały uwzględnione w pierwotnym planie analizy), co przekłada się na dodatkowe pytania / hipotezy.

Podobnie jak w przypadku nadmiernego dopasowania, pogłębianie lub szpiegowanie danych prowadzi do wyników, które się nie generalizują. Jednak gdy dostępnych jest wiele danych, postulowanie ograniczonego zestawu hipotez jest dość trudne (dla badacza lub lekarza).

Chciałbym wiedzieć, czy istnieją dobrze znane metody, zalecenia lub praktyczne zasady, które mogą pomóc w określeniu EDA w przypadku badań na małej próbie.


Nie jestem do końca pewien, dlaczego rozmiar twojej próbki ma znaczenie. Czy możesz podać bardziej szczegółowe uzasadnienie, dlaczego uważasz, że dla małego n jest inaczej niż dla dużego n?
Andy W

2
13<n<25nσ

Myślę, że rozumiem ten sentyment, jeśli interesuje Cię wyłącznie klasyfikacja. Myślę, że dla wnioskowania przyczynowego problemy z węszeniem danych są takie same (tj. Problemy nie są rozwiązywane przez zwiększoną moc identyfikowania relacji). Spróbuję sformułować tę opinię w odpowiedzi. W międzyczasie mogę zadać pytanie na głównym forum dotyczące stosowania weryfikacji krzyżowej do wnioskowania przyczynowego, ponieważ nie spotkałem się z żadną pracą w tej dziedzinie, która to robi.
Andy W

1
@ Dziękuję. Mam nadzieję, że twoje pytanie otrzyma wiele interesujących odpowiedzi.
chl

Odpowiedzi:


10

Myślę, że najważniejsze jest, aby być uczciwym, zgłaszając takie wyniki, że były to nieoczekiwane ustalenia z EDA, a nie część wstępnego planu analizy opartego na hipotezie a priori . Niektóre osoby lubią nazywać takie wyniki „generowaniem hipotezy”: np. Pierwsze trafienie z wyszukiwania tego wyrażenia w Google Scholar zawiera w podsumowaniu streszczenia:

Ponieważ była to analiza „eksploracyjna”, efekt ten należy uznać za hipotezę generującą i oceniać prospektywnie w innych badaniach ...

Należy jednak zauważyć, że chociaż była to analiza podgrup post-hoc, pochodziła ona z randomizowanego badania kontrolnego, a nie badania obserwacyjnego, w którym problem pogarsza się. Philip Cole zlekceważył pomysł, że badania obserwacyjne („epidemiologiczne”) mogą generować hipotezy w celowo prowokującym, ale zabawnym komentarzu:

P Cole. Maszyna do generowania hipotez. Epidemiology 1993; 4 : 271–273.


+1 dzięki za link (i retag). Spojrzę w tym kierunku.
chl

13

Po prostu zostawiam zainteresowanemu czytelnikowi kilka referencji na temat pogłębiania danych i badań klinicznych . Ma to na celu rozszerzenie dobrej odpowiedzi @onestop . Starałem się unikać artykułów koncentrujących się tylko na wielu porównaniach lub zagadnieniach projektowych, chociaż badania z wieloma punktami końcowymi nadal stanowią trudne i kontrowersyjne dyskusje (długo po twierdzeniach Rothmana o bezużytecznych dostosowaniach , Epidemiologia 1990, 1: 43-46; lub zobacz recenzję Feise w BMC Medical Research Methodology 2002, 2: 8).

Rozumiem, że chociaż mówiłem o eksploracyjnej analizie danych , moje pytanie bardziej ogólnie dotyczy wykorzystania eksploracji danych, z potencjalnymi pułapkami, równolegle z testowaniem opartym na hipotezach.

  1. Koh, HC i Tan, G (2005). Aplikacje eksploracji danych w służbie zdrowia . Journal of Healthcare Information Management , 19 (2), 64-72.
  2. Ioannidis, JPA (2005). Dlaczego większość opublikowanych wyników badań jest fałszywa . PLoS Medicine , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH i Burnham, KP (2001). Sugestie dotyczące prezentacji wyników analizy danych . The Journal of Wildlife Management , 65 (3), 373–378. - odzwierciedla to komentarz @ onestop o tym, że musimy uznać eksplorację / modelowanie oparte na danych poza początkowym zestawem hipotez
  4. Michels, KB i Rosner, BA (1996). Trałowanie danych: łowić lub nie łowić . Lancet , 348, 1152-1153.
  5. Lord, SJ, Gebski, VJ i Keech, AC (2004). Wiele analiz w badaniach klinicznych: rzetelna nauka czy pogłębianie danych? . The Medical Journal of Australia , 181 (8), 452-454.
  6. Smith, GD i Ebrahim, S (2002). Pogłębianie danych, stronniczość lub dezorientacja . BMJ , 325, 1437-1438.
  7. Afshartous, D and Wolf, M (2007). Unikanie „szpiegowania danych” w modelach efektów wielopoziomowych i mieszanych . Journal of Royal Statistics Society A , 170 (4), 1035–1059
  8. Anderson, DR, Burnham, KP, Gould, WR i Cherry, S (2001). Obawy dotyczące znalezienia efektów, które są w rzeczywistości fałszywe . Biuletyn Widlife Society , 29 (1), 311–316.

To tylko podsumowanie tego, co do tej pory czytałem. Oczywiście nie zaakceptuję własnej odpowiedzi . Wszelkie inne przemyślenia byłyby mile widziane.
chl

Dzięki za zaakceptowanie mojej odpowiedzi chi, chociaż twoja lista referencyjna jest znacznie lepsza i nowsza. Naprawdę powinienem pomyśleć o kilku z nich, ponieważ mam je na dysku twardym, a może nawet przeczytałem niektóre z nich ...
onestop
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.