Tukey Median Polish, algorytm wykorzystywany jest w normalizacji RMA mikromacierzy. Jak być może wiesz, dane z mikromacierzy są dość hałaśliwe, dlatego potrzebują bardziej solidnego sposobu szacowania intensywności sond, biorąc pod uwagę obserwacje dla wszystkich sond i mikromacierzy. Jest to typowy model stosowany do normalizacji intensywności sond w różnych tablicach.
YI j=μja+αjot+ϵI j
i = 1 , … , Ij = 1 , … , J
Gdzie jest przekształca PM intensywności dla sondy o tablicy. to szum tła i można założyć, że odpowiadają one hałasowi w normalnej regresji liniowej. Jednak dystrybucyjne założenie dotyczące może być restrykcyjne, dlatego używamy Tukey Median Polish, aby uzyskać oszacowania dla i . Jest to niezawodny sposób normalizacji w różnych tablicach, ponieważ chcemy oddzielić sygnał, natężenie wywołane przez sondę, od efektu tablicy, . Możemy uzyskać sygnał normalizując dla efektu tablicyYI jl o gjat godzjott godzϵI jϵμja^αjot^ααjot^dla wszystkich tablic. Tak więc pozostały nam tylko efekty sondy plus trochę losowego hałasu.
Link, który cytowałem wcześniej, wykorzystuje medianę Tukey do oszacowania genów o różnej ekspresji lub genów „interesujących” poprzez uszeregowanie według efektu sondy. Jednak papier jest dość stary i prawdopodobnie w tym czasie ludzie wciąż próbowali wymyślić, jak analizować dane z mikromacierzy. Nieparametryczny empiryczny dokument z Bayesowskich metod Efrona powstał w 2001 roku, ale prawdopodobnie nie był szeroko stosowany.
Jednak teraz rozumiemy wiele na temat mikromacierzy (statystycznie) i jesteśmy całkiem pewni ich analizy statystycznej.
Dane z mikromacierzy są dość hałaśliwe, a RMA (która wykorzystuje medianę polską) jest jedną z najpopularniejszych metod normalizacji, być może z powodu jej prostoty. Inne popularne i wyrafinowane metody to: GCRMA, VSN. Ważne jest znormalizowanie, ponieważ zainteresowanie jest efektem sondy, a nie efektem tablicy.
Jak można się spodziewać, analiza mogła skorzystać z niektórych metod, które wykorzystują pożyczanie informacji między genami. Mogą to być metody bayesowskie lub empiryczne metody bayesowskie. Być może papier, który czytasz, jest stary i do tego czasu te techniki nie były dostępne.
Jeśli chodzi o twój drugi punkt, tak, prawdopodobnie modyfikują one dane eksperymentalne. Myślę jednak, że ta modyfikacja ma lepszą przyczynę, dlatego jest uzasadniona. Powodem jest
a) Dane z mikromacierzy są dość hałaśliwe. Gdy przedmiotem zainteresowania jest efekt sondy, konieczna jest normalizacja danych za pomocą RMA, GCRMA, VSN itp. I może być korzystna dowolna specjalna struktura danych. Ale unikałbym wykonania drugiej części. Wynika to głównie z tego, że jeśli nie znamy struktury z wyprzedzeniem, lepiej nie narzucać wielu założeń.
b) Większość eksperymentów z mikromacierzami ma charakter eksploracyjny, to znaczy naukowcy starają się zawęzić do kilku zestawów „interesujących” genów do dalszej analizy lub eksperymentów. Jeśli geny te mają silny sygnał, modyfikacje takie jak normalizacje nie powinny (zasadniczo) wpływać na końcowe wyniki.
Dlatego modyfikacje mogą być uzasadnione. Ale muszę zauważyć, że przesadzenie z normalizacją może prowadzić do złych wyników.