To interesujące pytanie. Moja grupa badawcza korzysta z dystrybucji, o której mówisz od kilku lat, w naszym publicznie dostępnym oprogramowaniu bioinformatycznym. O ile mi wiadomo, dystrybucja nie ma nazwy i nie ma na jej temat literatury. Chociaż artykuł Chandra i wsp. (2012) cytowany przez Aksakala jest ściśle powiązany, ich rozkład wydaje się ograniczony do wartości całkowitych dla i nie wydaje się, aby zawierały wyraźne wyrażenie dla pliku pdf.r
Aby dać ci trochę tła, rozkład NB jest bardzo intensywnie wykorzystywany w badaniach genomowych do modelowania danych dotyczących ekspresji genów wynikających z sekwencji RNA i powiązanych technologii. Dane zliczania powstają, gdy liczba odczytanych sekwencji DNA lub RNA wyekstrahowanych z próbki biologicznej, którą można zmapować do każdego genu. Zazwyczaj z każdej próbki biologicznej są dziesiątki milionów odczytów zmapowanych do około 25 000 genów. Alternatywnie można mieć próbki DNA, z których odczyty są mapowane na okna genomowe. My i inni spopularyzowaliśmy podejście, w którym NB glms są dopasowywane do odczytów sekwencji dla każdego genu, a empiryczne metody Bayesa są wykorzystywane do moderowania genówowych estymatorów dyspersji (dyspersjaϕ = 1 / r). Takie podejście zostało przytoczone w dziesiątkach tysięcy artykułów w czasopiśmie w literaturze genomicznej, dzięki czemu można zorientować się, jak bardzo się przyzwyczai.
Moja grupa utrzymuje pakiet oprogramowania edgeR R.. Kilka lat temu zmieniliśmy cały pakiet, aby działał z licznikami ułamkowymi, używając ciągłej wersji NB pmf. Po prostu przekonwertowaliśmy wszystkie współczynniki dwumianowe w NB pmf na stosunki funkcji gamma i zastosowaliśmy je jako (mieszany) ciągły plik pdf. Motywacją tego było to, że zliczanie odczytów sekwencji może czasami być ułamkowe z powodu (1) niejednoznacznego mapowania odczytów na transkryptom lub genom i / lub (2) normalizacji zliczeń w celu skorygowania efektów technicznych. Tak więc liczby są czasami oczekiwanymi lub szacowanymi, a nie obserwowanymi. I oczywiście liczba odczytów może wynosić dokładnie zero z prawdopodobieństwem dodatnim. Nasze podejście zapewnia, że wyniki wnioskowania z naszego oprogramowania są ciągłe w zliczeniach, dokładnie dopasowane do dyskretnych wyników NB, gdy szacowane liczby są liczbami całkowitymi.
O ile mi wiadomo, nie ma zamkniętej formy stałej normalizującej w pliku pdf, ani też nie ma zamkniętych postaci średniej lub wariancji. Gdy ktoś uważa, że nie ma formy zamkniętej dla całki
(stała Fransena-Robinsona), jasne jest, że nie może być całki ciągłej NB pdf albo. Wydaje mi się jednak, że tradycyjne wzory średnich i wariancji dla NB powinny nadal być dobrym przybliżeniem dla ciągłej NB. Ponadto stała normalizująca powinna zmieniać się powoli wraz z parametrami, a zatem może być ignorowana jako mająca znikomy wpływ na obliczenia maksymalnego prawdopodobieństwa.
∫∞01Γ ( x )rez
Można potwierdzić te hipotezy poprzez całkowanie numeryczne. Rozkład NB powstaje w bioinformatyce jako mieszanina gamma rozkładów Poissona (patrz Wikipedia dwumianowy artykuł negatywny lub McCarthy et al poniżej). Ciągły rozkład NB powstaje po prostu przez zastąpienie rozkładu Poissona ciągłym analogiem pdf
dla gdzie jest stałą normalizującą, aby zapewnić integrację gęstości z 1. Załóżmy na przykład, że . Rozkład Poissona ma pmf równe powyższemu pdf na liczbach całkowitych nieujemnych, a x≥0(λ)λ=10λ=10(10)=1/0,999875-1/2∞
fa( x ; λ ) = a ( λ ) e- λλxΓ ( x + 1 )
x ≥ 0a ( λ )λ = 10λ = 10, średnia Poissona i wariancja są równe 10. Całkowanie numeryczne pokazuje, że a średnia i wariancja ciągłego rozkładu są równe 10 do około 4 cyfr znaczących. Zatem stała normalizująca wynosi praktycznie 1, a średnia i wariancja są prawie dokładnie takie same, jak w przypadku dyskretnego rozkładu Poissona. Przybliżenie poprawia się jeszcze bardziej, jeśli dodamy korektę ciągłości, integrując od do zamiast od 0. Przy korekcji ciągłości wszystko jest poprawne (stała normalizująca wynosi 1, a momenty zgadzają się z dyskretnym Poissonem) do około 6 liczby.
a ( 10 ) = 1 / 0,999875- 1 / 2∞
W naszym pakiecie edgeR nie musimy dokonywać żadnych korekt ze względu na fakt, że masa jest równa zeru, ponieważ zawsze pracujemy z warunkowymi prawdopodobieństwami logarytmicznymi lub z różnicami wiarygodności logarytmicznymi, a wszelkie funkcje delta anulują obliczenia. Jest to typowa wartość BTW dla mieszanych rozkładów prawdopodobieństwa. Alternatywnie, moglibyśmy rozważyć rozkład, który nie ma masy w punkcie zerowym, ale ma wsparcie rozpoczynające się od -1/2 zamiast od zera. Każda z perspektyw teoretycznych prowadzi do tych samych obliczeń w praktyce.
Chociaż aktywnie korzystamy z ciągłej dystrybucji NB, nie opublikowaliśmy niczego na jej temat. Artykuły cytowane poniżej wyjaśniają podejście NB do danych genomowych, ale nie omawiają wyraźnie ciągłego rozkładu NB.
Podsumowując, nie dziwię się, że artykuł, który studiujesz, uzyskał rozsądne wyniki z kontynuowanej wersji NB pdf, ponieważ takie jest również nasze doświadczenie. Kluczowym wymaganiem jest prawidłowe modelowanie średnich i wariancji, co będzie w porządku, pod warunkiem, że dane, zarówno całkowite, jak i nie, wykazują tę samą formę kwadratowej zależności średniej wariancji, co rozkład NB.
Referencje
Robinson, M., i Smyth, GK (2008). Szacowanie małej próby ujemnej dyspersji dwumianowej, z zastosowaniem danych SAGE . Biostatistics 9, 321-332.
Robinson, MD i Smyth, GK (2007). Moderowane testy statystyczne do oceny różnic w liczności znaczników . Bioinformatics 23, 2881-2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). Analiza różnicowa ekspresji eksperymentów wieloczynnikowych RNA-Seq w odniesieniu do zmienności biologicznej . Nucleic Acids Research 40, 4288-4297.
Chen, Y, Lun, ATL i Smyth, GK (2014). Analiza różnicowa ekspresji złożonych eksperymentów z sekwencją RNA z wykorzystaniem edgeR. W: Analiza statystyczna danych sekwencji następnej generacji, Somnath Datta i Daniel S Nettleton (red.), Springer, Nowy Jork, strony 51--74. Przedruk
Lun, ATL, Chen, Y i Smyth, GK (2016). Jest DE-licious: przepis na analizy ekspresji różnicowej eksperymentów z sekwencją RNA z wykorzystaniem metod quasi-prawdopodobieństwa w EdgeR. Methods in Molecular Biology 1418, 391-416. Przedruk
Chen Y, Lun ATL i Smyth, GK (2016). Od odczytów przez geny do ścieżek: analiza ekspresji różnicowej eksperymentów RNA-Seq przy użyciu Rsubread i potoku quasi-prawdopodobieństwa edgeR . F1000 Badanie 5, 1438.