Badam niektóre dane pokrycia genomowego, które są w zasadzie długą listą (kilka milionów wartości) liczb całkowitych, z których każda mówi, jak dobrze (lub „głęboka”) pozycja w genomie jest objęta.
Chciałbym poszukać w tych danych „dolin”, czyli regionów znacznie „niższych” niż otaczające je środowisko.
Zauważ, że rozmiar dolin, których szukam, może wynosić od 50 zasad do kilku tysięcy.
Jakich paradygmatów poleciłbyś zastosować do znalezienia tych dolin?
AKTUALIZACJA
Kilka graficznych przykładów danych:
AKTUALIZACJA 2
Zdefiniowanie, czym jest dolina, jest oczywiście jednym z pytań, z którymi się zmagam. Są to dla mnie oczywiste:
ale istnieją bardziej złożone sytuacje. Zasadniczo rozważam 3 kryteria: 1. Zakres (średni? Maksymalny?) W oknie w stosunku do średniej globalnej. 2. Zasięg (...) w oknie w odniesieniu do jego bezpośredniego otoczenia. 3. Jak duże jest okno: jeśli widzę bardzo niski zasięg dla krótkiego zakresu, jest to interesujące, jeśli widzę bardzo niskie pokrycie dla dużego zakresu, jest również interesujące, jeśli widzę lekko niskie pokrycie dla krótkiego zakresu, to nie jest naprawdę interesujące , ale jeśli widzę lekko niski zasięg przez długi okres - to jest… Więc jest to kombinacja długości sapn i jego zasięgu. Im jest dłuższy, tym większy pozwalam na zasięg i nadal uważam go za dolinę.
Dzięki,
Dave