Mam nadzieję, że ktoś na tych forach pomoże mi rozwiązać ten podstawowy problem w badaniach nad ekspresją genów.
Przeprowadziłem głębokie sekwencjonowanie tkanki eksperymentalnej i kontrolnej. Następnie uzyskałem krotną wartość wzbogacenia genów w próbce eksperymentalnej nad kontrolą. Referencyjny genom ma około 15 000 genów. 3000 z 15 000 genów jest wzbogaconych powyżej pewnego poziomu granicznego w mojej interesującej próbce w porównaniu do kontroli.
A zatem: A = całkowita populacja genów = 15 000 B = subpopulacja wzbogacona w sekwencję RNA = 3000.
W poprzednim eksperymencie z chipem ChIP znalazłem 400 genów wzbogaconych przez chip ChIP. Z 400 genów chipów ChIP, 100 genów znajduje się w grupie 3000 wzbogaconych transkryptów RNA-Seq.
Zatem: C = całkowita liczba genów wzbogaconych w chip ChIP = 400.
Jakie jest prawdopodobieństwo, że moje 100 genów chipów ChIP zostanie wzbogaconych przez RNA-Seq przez przypadek? Innymi słowy, jaki jest najrozsądniejszy sposób obliczenia, czy moje zaobserwowane nakładanie się B i C (100 genów) jest lepsze niż to, które uzyskałem przypadkowo? Z tego, co przeczytałem do tej pory, najlepszym sposobem na przetestowanie tego jest użycie rozkładu hipergeometrycznego.
Użyłem kalkulatora internetowego (stattrek.com), aby skonfigurować test rozkładu hipergeometrycznego z następującymi parametrami: - wielkość pop = 15 000 - liczba sukcesów w populacji = 3000 - wielkość próby = 400, - liczba sukcesów w próbie = 100. Otrzymuję następujące dla prawdopodobieństwa hipergeometrycznego P (x = 100) = 0,00224050636447747
Rzeczywista liczba genów pokrywających się między B i C = 100. Czy to jest lepsze niż sam przypadek? Nie wygląda na to, że szansa na wzbogacenie jednego genu wynosi 1: 5 (3000 z 15 000). Dlatego nie rozumiem, dlaczego moje P (x = 100), które obliczyłem powyżej, wynosi 0,0022. Daje to 0,2% szansy na nakładanie się przypadkowo. Czy nie powinno to być znacznie wyższe?
Gdybym pobrał próbkę z 400 losowych genów z dużej listy 15 000, to można by oczekiwać, że dowolne 80 z tych genów zostanie wzbogacone przez sam przypadek (1: 5). Liczba genów, które się pokrywają, wynosi 100, więc jest to tylko trochę więcej niż przypadek.
Próbowałem również znaleźć rozwiązanie wykorzystujące funkcje dyszy lub phypera w R (używając tego, co widziałem w innym poście): A = wszystkie geny w genomie (15 000) B = Geny wzbogacone w sekwencję RNA (3000) C = ChIP -chip wzbogacone geny (400) Oto wejście / wyjście R (dostosowane z poprzedniego postu wymiany stosu):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
Nie jestem pewien, jak interpretować te liczby. Uważam, że 2,36e-36 jest prawdopodobieństwem całkowitego pokrycia się B i C przez sam przypadek? Ale to nie ma sensu, ponieważ prawdopodobieństwo to jest znacznie bliższe 1: 5. Jeśli zacznę od 15 000 genów, 3000 zostanie wzbogaconych. Podobnie, jeśli zacznę od 400 genów chipów ChIP, 80 z nich powinno zostać wzbogaconych w samej sekwencji RNA-Seq ze względu na szanse wzbogacenia 1: 5 w tym zbiorze danych.
Jaki jest właściwy sposób obliczenia wartości p, zgodnie z rozkładem hipergeometrycznym, dla nakładania się B i C?