Obliczanie prawdopodobieństwa nakładania się listy genów między sekwencją RNA a zestawem danych ChIP-chip

13

Mam nadzieję, że ktoś na tych forach pomoże mi rozwiązać ten podstawowy problem w badaniach nad ekspresją genów.

Przeprowadziłem głębokie sekwencjonowanie tkanki eksperymentalnej i kontrolnej. Następnie uzyskałem krotną wartość wzbogacenia genów w próbce eksperymentalnej nad kontrolą. Referencyjny genom ma około 15 000 genów. 3000 z 15 000 genów jest wzbogaconych powyżej pewnego poziomu granicznego w mojej interesującej próbce w porównaniu do kontroli.

A zatem: A = całkowita populacja genów = 15 000 B = subpopulacja wzbogacona w sekwencję RNA = 3000.

W poprzednim eksperymencie z chipem ChIP znalazłem 400 genów wzbogaconych przez chip ChIP. Z 400 genów chipów ChIP, 100 genów znajduje się w grupie 3000 wzbogaconych transkryptów RNA-Seq.

Zatem: C = całkowita liczba genów wzbogaconych w chip ChIP = 400.

Jakie jest prawdopodobieństwo, że moje 100 genów chipów ChIP zostanie wzbogaconych przez RNA-Seq przez przypadek? Innymi słowy, jaki jest najrozsądniejszy sposób obliczenia, czy moje zaobserwowane nakładanie się B i C (100 genów) jest lepsze niż to, które uzyskałem przypadkowo? Z tego, co przeczytałem do tej pory, najlepszym sposobem na przetestowanie tego jest użycie rozkładu hipergeometrycznego.

Użyłem kalkulatora internetowego (stattrek.com), aby skonfigurować test rozkładu hipergeometrycznego z następującymi parametrami: - wielkość pop = 15 000 - liczba sukcesów w populacji = 3000 - wielkość próby = 400, - liczba sukcesów w próbie = 100. Otrzymuję następujące dla prawdopodobieństwa hipergeometrycznego P (x = 100) = 0,00224050636447747

Rzeczywista liczba genów pokrywających się między B i C = 100. Czy to jest lepsze niż sam przypadek? Nie wygląda na to, że szansa na wzbogacenie jednego genu wynosi 1: 5 (3000 z 15 000). Dlatego nie rozumiem, dlaczego moje P (x = 100), które obliczyłem powyżej, wynosi 0,0022. Daje to 0,2% szansy na nakładanie się przypadkowo. Czy nie powinno to być znacznie wyższe?

Gdybym pobrał próbkę z 400 losowych genów z dużej listy 15 000, to można by oczekiwać, że dowolne 80 z tych genów zostanie wzbogacone przez sam przypadek (1: 5). Liczba genów, które się pokrywają, wynosi 100, więc jest to tylko trochę więcej niż przypadek.

Próbowałem również znaleźć rozwiązanie wykorzystujące funkcje dyszy lub phypera w R (używając tego, co widziałem w innym poście): A = wszystkie geny w genomie (15 000) B = Geny wzbogacone w sekwencję RNA (3000) C = ChIP -chip wzbogacone geny (400) Oto wejście / wyjście R (dostosowane z poprzedniego postu wymiany stosu):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36

Nie jestem pewien, jak interpretować te liczby. Uważam, że 2,36e-36 jest prawdopodobieństwem całkowitego pokrycia się B i C przez sam przypadek? Ale to nie ma sensu, ponieważ prawdopodobieństwo to jest znacznie bliższe 1: 5. Jeśli zacznę od 15 000 genów, 3000 zostanie wzbogaconych. Podobnie, jeśli zacznę od 400 genów chipów ChIP, 80 z nich powinno zostać wzbogaconych w samej sekwencji RNA-Seq ze względu na szanse wzbogacenia 1: 5 w tym zbiorze danych.

Jaki jest właściwy sposób obliczenia wartości p, zgodnie z rozkładem hipergeometrycznym, dla nakładania się B i C?

— stlandroidfan
źródło

15

Jesteś blisko, używając dhyperi phyper, ale nie rozumiem, skąd 0:2i skąd -1:2pochodzą.

Wartość p, którą chcesz, to prawdopodobieństwo uzyskania 100 lub więcej białych kulek w próbce o wielkości 400 z urny z 3000 białymi kulkami i 12000 czarnymi kulkami. Oto cztery sposoby, aby to obliczyć.

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

Dają one 0,0078.

dhyper(x, m, n, k)daje prawdopodobieństwo dokładnego narysowania x. W pierwszym wierszu sumujemy prawdopodobieństwa dla 100 - 400; w drugim wierszu bierzemy 1 minus suma prawdopodobieństw 0–99.

phyper(x, m, n, k)daje prawdopodobieństwo otrzymania xlub mniej, więc phyper(x, m, n, k)jest to to samo co sum(dhyper(0:x, m, n, k)).

To lower.tail=FALSEjest trochę mylące. phyper(x, m, n, k, lower.tail=FALSE)jest takie samo, jak 1-phyper(x, m, n, k)prawdopodobieństwo prawdopodobieństwa x+1lub więcej. [Nigdy tego nie pamiętam i dlatego zawsze muszę to dwukrotnie sprawdzić.]

Na tej stronie stattrek.com chcesz spojrzeć na ostatni wiersz „Prawdopodobieństwo skumulowane: P (X 100)”, a nie na pierwszy wiersz „Prawdopodobieństwo hipergeometryczne: P (X = 100)”. $\ge$

Wszelkie szczególności ilość, że można narysować będzie miał małą prawdopodobieństwo (w rzeczywistości max(dhyper(0:400, 3000, 12000, 400))daje 0,050), a uzyskanie 101 lub 102 lub dowolny większa liczba jest jeszcze bardziej interesujące, że 100, a wartość p jest prawdopodobieństwem, jeśli null hipoteza była prawdziwa, a wynik był tak interesujący, a nawet bardziej niż obserwowany. $\sim$

Oto obraz rozkładu hipergeometrycznego w tym przypadku. Widać, że jest on wyśrodkowany na 80 (20% z 400) i że 100 jest dość daleko w prawym ogonie. wprowadź opis zdjęcia tutaj

— Karl
źródło

Wielkie dzięki za pomoc. Rozumiem logikę twojej odpowiedzi. Ale jak wytłumaczyć grupie biologów, że jest to większe niż nakładanie się zaobserwowane z powodu samego przypadku? Powiedzą, że mam szansę na nakładanie się 1: 5. Czy moje nakładanie się jest znaczące, ponieważ w próbce o wielkości 400 kulek (z 15 000 wszystkich kulek) moja szansa na uzyskanie białej piłki jest w rzeczywistości mniejsza niż 1: 5, ponieważ próbuję mniejszej populacji (nie całej 15 000)? Nie ma to sensu, ponieważ nawet jeśli 400 <15 000, nadal istnieje stosunek bieli do czerni w stosunku 1: 5. Czy to ma sens?

— stlandroidfan

@stlandroidfan - Nie rozumiem, co uważasz za mylące. Dodałem figurę; czy to pomaga?

— Karl

0

Spójrz na to w ten sposób .. Jeśli przyjmujesz, że jest to dwumianowa, co może być niepoprawne, ale powinno być dość przybliżone .. twoja sigma ^ 2 wynosi .8 * .2 * 400 = 64, to sigma = 8. Więc od 80 do 100 przekroczyłeś 2,5 odchyleń standardowych. Jest to dość znaczące .. Powinien mieć małą wartość p.

— Adam
źródło

Dzięki za odpowiedź. Rozkłady hipergeometryczne są częściej używane do nakładania się listy genów z tego, co widziałem w literaturze. Pytanie brzmi: jakie jest prawdopodobieństwo otrzymania 100 lub więcej białych kulek w próbce o wielkości 400 z urny z 3000 białymi kulkami i 12000 czarnymi kulkami? Myślę, że wciąż jestem zakłopotany tym, jak wytłumaczyć to grupie biologów? Sposób, w jaki widzą to 3000: 12000 to szansa 1: 5 bieli: czerni. Tak więc w próbce 400, 80 powinno być białe. Dlaczego więc prawdopodobieństwo uzyskania 100 lub więcej jest o wiele niższe niż 20% (1 na 5)?

— stlandroidfan