Dyscyplina na styku informatyki i nauk biologicznych, która polega na organizowaniu, utrzymywaniu i analizowaniu danych z takich dziedzin jak biologia molekularna, genetyka i genomika
Szukam zasobów (samouczki, podręczniki, webcast itp.), Aby dowiedzieć się więcej o Markov Chain i HMM. Pochodzę z zawodu biologa i obecnie jestem zaangażowany w projekt związany z bioinformatyką. Ponadto, jakie są niezbędne podstawy matematyczne, których potrzebuję, aby dobrze zrozumieć modele Markowa i HMM? Rozglądałem się za pomocą Google, ale jak …
Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …
Ujemny rozkład dwumianowy (NB) jest zdefiniowany na nieujemnych liczbach całkowitych i ma funkcję masy prawdopodobieństwa fa( k ; r , p ) = ( k + r - 1k) pk( 1 - p )r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.Czy ma sens rozważenie ciągłego rozkładu na liczbach rzeczywistych nieujemnych zdefiniowanych przez tę samą formułę (zastępując …
Wiem, że moje pytanie / tytuł nie jest zbyt szczegółowe, dlatego postaram się je wyjaśnić: Sztuczne sieci neuronowe mają stosunkowo ścisłe konstrukcje. Oczywiście na ogół mają na nie wpływ biologia i próbują zbudować matematyczny model prawdziwych sieci neuronowych, ale nasze zrozumienie prawdziwych sieci neuronowych jest niewystarczające do zbudowania dokładnych modeli. …
Niedawno przeczytałem dwa artykuły. Pierwszy dotyczy historii korelacji, a drugi nowej metody o nazwie Maksymalny współczynnik informacyjny (MIC). Potrzebuję twojej pomocy w zrozumieniu metody MIC w celu oszacowania nieliniowych korelacji między zmiennymi. Ponadto instrukcje dotyczące jego używania w języku R można znaleźć na stronie internetowej autora (w części Pliki do …
Mam wysoce niezrównoważony zestaw danych testowych. Zestaw dodatni składa się ze 100 przypadków, a zestaw ujemny składa się z 1500 przypadków. Po stronie treningowej mam większą pulę kandydatów: pozytywny zestaw treningowy ma 1200 przypadków, a negatywny zestaw treningowy ma 12000 przypadków. W przypadku tego rodzaju scenariusza mam kilka możliwości: 1) …
Ujemny rozkład dwumianowy stał się popularnym modelem do zliczania danych (w szczególności oczekiwanej liczby odczytów sekwencjonowania w danym regionie genomu z danego eksperymentu) w bioinformatyce. Wyjaśnienia różnią się: Niektórzy tłumaczą to jako coś, co działa jak rozkład Poissona, ale ma dodatkowy parametr, pozwalający na większą swobodę modelowania rzeczywistego rozkładu, przy …
To naiwne pytanie kogoś, kto zaczyna uczyć się uczenia maszynowego. Czytam dziś książkę „Machine Learning: algorytmiczna perspektywa” z Marsland. Uważam, że jest przydatna jako książka wprowadzająca, ale teraz chciałbym przejść do zaawansowanych algorytmów, które dają obecnie najlepsze wyniki. Najbardziej interesuje mnie bioinformatyka: grupowanie sieci biologicznych i znajdowanie wzorców w sekwencjach …
Niedawno ukończyłem studia magisterskie z zakresu modelowania medycznego i biologicznego wraz z matematyką inżynierską jako tłem. Mimo że mój program edukacyjny obejmował znaczną liczbę kursów statystyki matematycznej (lista poniżej), którymi zarządzałem z dość wysokimi ocenami, często kończyłem się całkowitym zagubieniem się zarówno w teorii, jak i zastosowaniach statystyki. Muszę powiedzieć, …
Mam nadzieję, że ktoś na tych forach pomoże mi rozwiązać ten podstawowy problem w badaniach nad ekspresją genów. Przeprowadziłem głębokie sekwencjonowanie tkanki eksperymentalnej i kontrolnej. Następnie uzyskałem krotną wartość wzbogacenia genów w próbce eksperymentalnej nad kontrolą. Referencyjny genom ma około 15 000 genów. 3000 z 15 000 genów jest wzbogaconych …
Tło biologiczne Z czasem niektóre gatunki roślin mają tendencję do powielania całych genomów, uzyskując dodatkową kopię każdego genu. Z powodu niestabilności tej konfiguracji wiele z tych genów jest następnie usuwanych, a genom układa się ponownie i stabilizuje, gotowy do powtórzenia. Te zdarzenia duplikacji są powiązane ze specjacjami i inwazjami, a …
Dlaczego ktoś stosuje wiek i kwadrat do wieku jako zmienne towarzyszące w badaniu asocjacji genetycznej? Rozumiem użycie wieku, jeśli zostało ono zidentyfikowane jako znacząca zmienna towarzysząca, ale nie mam pojęcia, jak wykorzystać wiek kwadratowy.
Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …
Zawsze mówimy, że statystyki dotyczą tylko danych. Ale wiemy również, że informatyka czerpie wiedzę z analizy danych. Na przykład ludzie bioinformatyki mogą całkowicie przejść bez biostatystyki. Chcę wiedzieć, jaka jest zasadnicza różnica między statystyką a informatyką.
Przykłady: w opisie stanowiska mam zdanie: „Starszy inżynier Java w Wielkiej Brytanii”. Chcę użyć modelu głębokiego uczenia się, aby przewidzieć go jako 2 kategorie: English i IT jobs. Jeśli użyję tradycyjnego modelu klasyfikacji, może on przewidzieć tylko 1 etykietę z softmaxfunkcją na ostatniej warstwie. Dlatego mogę użyć 2 modelowych sieci …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.