W badaniach asocjacyjnych całego genomu (GWAS):
- Jakie są główne elementy?
- Dlaczego są używane?
- Jak są obliczane?
- Czy można przeprowadzić badanie asocjacyjne obejmujące cały genom bez użycia PCA?
W badaniach asocjacyjnych całego genomu (GWAS):
Odpowiedzi:
W tym szczególnym kontekście PCA stosuje się głównie do uwzględnienia specyficznych dla populacji zmian w rozkładzie alleli na SNP (lub innych markerach DNA, chociaż znam tylko przypadek SNP) w trakcie badania. Taka „podbudowa populacji” powstaje głównie w wyniku różnych częstości występowania mniejszych alleli w genetycznie odległych przodkach (np. Japońskim i czarno-afrykańskim lub europejsko-amerykańskim). Ogólny pomysł został dobrze wyjaśniony w Population Structure and Eigenanalysis , autorstwa Patterson i in. ( PLoS Genetics 2006, 2 (12)) lub specjalny numer Lancet dotyczący epidemiologii genetycznej (2005, 366; większość artykułów można znaleźć w Internecie, zaczynając od Cordell & Clayton, Genetic Association Studies ).
Konstrukcja głównych osi wynika z klasycznego podejścia do PCA, które stosuje się do skalowanej macierzy (osobniki według SNP) obserwowanych genotypów (AA, AB, BB; powiedzmy B jest allelem mniejszym we wszystkich przypadkach), z wyjątkiem tego, że można zastosować dodatkową normalizację w celu uwzględnienia dryfu populacji. To wszystko zakłada, że częstotliwość mniejszego allelu (przyjmując wartość w {0,1,2}) można uznać za liczbową, to znaczy pracujemy w modelu addytywnym (zwanym także dawkowaniem allelicznym) lub dowolnym równoważnym, który miałby sens . Ponieważ kolejne ortogonalne komputery będą uwzględniać maksymalną wariancję, zapewnia to sposób na wyróżnienie grup osobników różniących się poziomem mniejszych alleli. Oprogramowanie używane do tego jest znane jako Eigenstrat . Jest również dostępny wegscore()
funkcja z pakietu GenABEL R (patrz także GenABEL.org ). Warto zauważyć, że zaproponowano inne metody wykrywania podstruktury populacji, w szczególności opartą na modelach rekonstrukcję klastrów (patrz odnośniki na końcu). Więcej informacji można znaleźć przeglądając projekt Hapmap oraz dostępny samouczek pochodzący z projektu Bioconductor . (Wyszukaj fajne samouczki Vince'a J Careya lub Davida Claytona w Google).
Rozwarstwienie ludności w pomocy online.
Biorąc pod uwagę, że analiza własna pozwala odkryć pewną strukturę na poziomie osobników, możemy wykorzystać tę informację, próbując wyjaśnić obserwowane różnice w danym fenotypie (lub dowolnym rozkładzie, który można zdefiniować zgodnie z kryterium binarnym, np. Chorobą lub kontrolą przypadków sytuacja). W szczególności możemy dostosować naszą analizę do tych komputerów (tj. Oceny czynnikowej osobników), jak pokazano w analizie głównych składników koryguje stratyfikację w badaniach asocjacyjnych całego genomu , Price i in. ( Nature Genetics 2006, 38 (8)), a później praca (był ładny obraz pokazujący osie zmienności genetycznej w Europie w genach lustrzanej geografii w Europie; Natura 2008; Ryc. 1A przedstawiony poniżej). Należy również zauważyć, że innym rozwiązaniem jest przeprowadzenie analizy warstwowej (poprzez uwzględnienie pochodzenia etnicznego w GLM) - jest to na przykład łatwo dostępne w pakiecie snpMatrix .
Bibliografia