Tło biologiczne
Z czasem niektóre gatunki roślin mają tendencję do powielania całych genomów, uzyskując dodatkową kopię każdego genu. Z powodu niestabilności tej konfiguracji wiele z tych genów jest następnie usuwanych, a genom układa się ponownie i stabilizuje, gotowy do powtórzenia. Te zdarzenia duplikacji są powiązane ze specjacjami i inwazjami, a teoria mówi, że duplikacja pomaga roślinom szybciej przystosować się do nowego środowiska.
Lupinus, rodzaj rośliny kwitnącej, zaatakował Andy podczas jednego z najszybszych zdarzeń specjacyjnych, jakie kiedykolwiek wykryto, a ponadto wydaje się, że ma więcej duplikatów w swoim genomie niż najbardziej blisko spokrewniony rodzaj, Baptisia.
A teraz problem matematyczny:
Genomy członka Lupinus i członka Baptisia zostały zsekwencjonowane, dostarczając surowych danych na temat 25 000 genów każdego gatunku. Przeszukując bazę danych genów o znanej funkcji, mam teraz „najlepsze przypuszczenie”, jakie funkcje może wykonywać ten gen - tak więc na przykład Gene1298 może być związany z „metabolizmem fruktozy, reakcją na stres solny, reakcją na stres zimny”. Chcę wiedzieć, czy w przypadku Baptisia i Lupinus miało miejsce zduplikowanie, czy utrata genu miała miejsce losowo, czy też geny spełniające określone funkcje były bardziej prawdopodobne, że zostaną zachowane lub usunięte.
Mam skrypt, który wyświetli tabelę taką jak ta pokazana poniżej. L * jest liczbą wszystkich genów Lupinus związanych z funkcją. L 1+ to liczba genów tocznia związanych z funkcją, w której istnieje co najmniej jedna zduplikowana kopia. Mogę go zmusić do wyprodukowania L 2+, L 3+ itp., Chociaż L 1+ jest znacznie bardziej niezawodną grupą niż L 2+ ze względu na proces sekwencjonowania.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Chciałbym przetestować, dla każdej funkcji genów, czy jest więcej lub mniej genów z duplikatami, niż można się spodziewać wyłącznie w przypadku Lupinus i Baptisia, oraz czy Lupinus różni się od Baptisia w stosunku obserwowanego do oczekiwanego.
Najlepsza rzecz, jaką mam do tej pory
Wcześniejsze badania na różnych gatunkach wykorzystywały analizę wzbogacania, z dokładnym testem Fishera i korektą FDR do wielokrotnego pobierania próbek, aby wykonać test awaryjny w każdym rzędzie.
Byłoby miło to poprawić; Nie jestem pewien, czy to brzmi jak najlepszy sposób na zrobienie tego.
Glen_b zasugerował użycie GLM do analizy danych; Grałem z GLM w JMP8, co było interesujące, ale przyznam, że tak naprawdę ich nie rozumiem.
To powiedziawszy, zamiast tego próbuję teraz użyć R.
Do czego tego używam?
To pierwotnie miało być częścią krótkiego projektu badawczego, który prowadzę na uniwersytecie, ale teraz przerodziło się w ogromny projekt adnotacji genomu. Czemu? Ponieważ bioinformatyka jest fajna. Zdolność do pobrania ciągu A, T, C i G i wykorzystania go do wnioskowania o zdarzeniach, które miały miejsce miliony lat temu, jest niesamowita.
Nie muszę dodawać, że nie zamierzam podawać żadnej uprzejmie udzielonej odpowiedzi jako mojej własnej pracy. Z przyjemnością dołączę potwierdzenie w artykule, jeśli użyję metody zaproponowanej tutaj w przesłanej pracy.