To właściwie gorący temat w badaniach analizy genomewide (GWAS)! Nie jestem pewien, czy metoda, o której myślisz, jest najbardziej odpowiednia w tym kontekście. Łączenie wartości p zostało opisane przez niektórych autorów, ale w innym kontekście (badania replikacji lub metaanaliza, patrz np. (1) w ostatnim przeglądzie). Łączenie wartości p SNP metodą Fishera jest ogólnie stosowane, gdy chce się uzyskać unikalną wartość p dla danego genu; pozwala to na pracę na poziomie genów i zmniejsza wymiar wymiarowości kolejnych testów, ale jak już powiedziałeś, brak niezależności między markerami (wynikającymi z kolokacji przestrzennej lub nierównowagi połączeń, LD) wprowadza błąd systematyczny. Bardziej zaawansowane alternatywy polegają na procedurach ponownego próbkowania,
Moje główne obawy związane z bootstrapowaniem (z wymianą) polegałyby na tym, że wprowadzasz sztuczną formę powiązania, lub innymi słowy tworzysz wirtualne bliźnięta, zmieniając w ten sposób równowagę Hardy'ego-Weinberga (ale także minimalną częstotliwość alleli i szybkość połączeń). Nie byłoby tak w przypadku podejścia permutacyjnego, w którym permutujesz poszczególne etykiety i zachowujesz dane genotypowania w obecnej postaci. Zazwyczaj oprogramowanie Plink może dać surowe i permutowane wartości p, chociaż wykorzystuje (domyślnie) strategię testowania adaptacyjnego z przesuwanym oknem, które pozwala zatrzymać wszystkie permutacje (powiedzmy 1000 na SNP), jeśli wydaje się, że SNP pod rozważanie nie jest „interesujące”; ma również opcję obliczania maxT, patrz pomoc online .
Biorąc jednak pod uwagę małą liczbę SNP, które rozważasz, sugerowałbym poleganie na testach opartych na FDR lub maxT, jak zaimplementowano w pakiecie wielokrotnego testu R (patrz mt.maxT
), ale ostatecznym przewodnikiem po strategiach ponownego próbkowania dla aplikacji genomowej jest wiele procedur testowych z aplikacjami do Genomics , od Dudoit & van der Laan (Springer, 2008). Zobacz także książkę Andrei Foulkes na temat genetyki z R , która jest recenzowana w JSS. Ma świetny materiał na temat wielu procedur testowych.
Dalsze uwagi
Wielu autorów wskazało na fakt, że proste metody wielokrotnego korygowania testów, takie jak Bonferroni lub Sidak, są zbyt rygorystyczne, aby dostosować wyniki dla poszczególnych SNP. Ponadto żadna z tych metod nie bierze pod uwagę korelacji między SNP z powodu LD, który oznacza zmienność genetyczną między regionami genowymi. Inne alternatywy zostały zaproponowane, na przykład pochodna metody Holma do wielokrotnego porównania (3), ukryty model Markowa (4), warunkowy lub dodatni FDR (5) lub jego pochodna (6). Tak zwane statystyki luk lub przesuwane okna okazały się w niektórych przypadkach skuteczne, ale dobrą recenzję znajdziesz w (7) i (8).
Słyszałem również o metodach, które skutecznie wykorzystują strukturę haplotypów lub LD, np. (9), ale nigdy ich nie używałem. Wydaje się jednak, że są one bardziej związane z oszacowaniem korelacji między markerami, a nie wartością p, jak zamierzałeś. Ale w rzeczywistości lepiej jest pomyśleć o strukturze zależności między kolejnymi statystykami testów, niż między skorelowanymi wartościami p.
Referencje
- Cantor, RM, Lange, K i Sinsheimer, JS. Priorytetyzacja wyników GWAS: przegląd metod statystycznych i zaleceń dotyczących ich stosowania . Am J Hum Genet. 2010 86 (1): 6–22.
- Corley, RP, Zeiger, JS, Crowley, T i in. Związek genów kandydujących z uzależnieniem od narkotyków aspołecznych u młodzieży . Uzależnienie od narkotyków i alkoholu 2008 96: 90–98.
- Dalmasso, C, Génin, E i Trégouet DA. Procedura ważonego holma uwzględniająca częstotliwości alleli w badaniach stowarzyszenia genomewide . Genetics 2008 180 (1): 697–702.
- Wei, Z, Sun, W, Wang, K i Hakonarson, H. Wielokrotne testy w badaniach asocjacyjnych całego genomu za pomocą ukrytych modeli Markowa . Bioinformatics 2009 25 (21): 2802–2808.
- Broberg, P. Porównawczy przegląd szacunków odsetka niezmienionych genów i odsetka fałszywych odkryć . BMC Bioinformatics 2005 6: 199.
- Need, AC, Ge, D, Weale, ME, i in. Badanie całego genomu SNP i CNV w schizofrenii . PLoS Genet. 2009 5 (2): e1000373.
- Han, B, Kang, HM i Eskin, E. Szybka i dokładna wielokrotna korekcja testowa i oszacowanie mocy dla milionów skorelowanych markerów . PLoS Genetics 2009
- Liang, Y i Kelemen, A. Postępy i wyzwania statystyczne w analizie skorelowanych danych snp w badaniach genomowych złożonych chorób . Ankiety statystyczne 2008 2: 43–60. - najnowsza najnowsza recenzja
- Nyholt, DR. Prosta poprawka do wielokrotnego testowania polimorfizmów pojedynczego nukleotydu w nierównowagach sprzężonych ze sobą . Am J Hum Genet. 2004 74 (4): 765–769.
- Nikodem, KK, Liu, W, Chase, GA, Tsai, YY i Fallin, MD. Porównanie błędu typu I dla wielu poprawek testowych w dużych badaniach polimorfizmu pojedynczego nukleotydu przy użyciu głównych składników w porównaniu z algorytmami blokującymi haplotyp . BMC Genetics 2005; 6 (suplement 1): S78.
- Peng, Q, Zhao, J i Xue, F. Testy przedziału ufności oparte na PCA bootstrap dla powiązania choroby genowej z udziałem wielu SNP . BMC Genetics 2010, 11: 6
- Li, M, Romero, R, Fu, WJ i Cui, Y (2010). Mapowanie Haplotyp-haplotyp Interakcje z adaptacyjnym LASSO . BMC Genetics 2010, 11:79 - chociaż nie jest bezpośrednio związany z pytaniem, obejmuje analizę opartą na haplotypie / efekt epistatyczny