Pierwsze kroki z biclustering

9

Przeprowadziłem przypadkowe badania internetowe dotyczące biclusters. (Przeczytałem kilka razy artykuł na Wiki). Jak dotąd wydaje się, że istnieje kilka definicji lub standardowej terminologii.

Zastanawiałem się, czy są jakieś standardowe gazety lub książki, które powinien przeczytać każdy, kto jest zainteresowany algorytmami znajdowania bullusterów.
Czy można powiedzieć, jaki jest stan techniki w tej dziedzinie? Zaintrygowało mnie pojęcie znajdowania klastrów za pomocą algorytmów genetycznych, dlatego doceniłbym komentarze na temat tego podejścia, w szczególności w kontekście innych podejść.
Zwykle w grupowaniu celem jest podzielenie zestawu danych na grupy, w których każdy element jest w pewnej grupie. Czy algorytmy bicluster również starają się umieścić wszystkie elementy w określonej grupie?

clustering data-mining

— Henry B.
źródło

16

Nigdy nie korzystałem z niego bezpośrednio, więc mogę podzielić się tylko niektórymi dokumentami i ogólnymi przemyśleniami na temat tej techniki (które głównie dotyczą twoich pytań 1 i 3).

Moje ogólne rozumienie biclusteringu pochodzi głównie z badań genetycznych (2-6), w których staramy się uwzględnić klastry genów i grupy osób: krótko mówiąc, szukamy grup próbek o podobnym profilu ekspresji genów razem (może to być powiązane na przykład stan chorobowy) i geny, które przyczyniają się do tego wzoru profilowania genów. Przegląd najnowszego stanu wiedzy na temat biologicznych „masywnych” zestawów danych jest dostępny w slajdach Pardalos , Biclustering . Zauważ, że istnieje pakiet R, biclust , z aplikacjami do danych mikromacierzy.

W rzeczywistości moim pierwotnym pomysłem było zastosowanie tej metodologii do diagnozy klinicznej, ponieważ pozwala ona na umieszczenie cech lub zmiennych w więcej niż jednym klastrze, co jest interesujące z punktu widzenia semeiologicznego, ponieważ objawy, które łączą się razem, pozwalają zdefiniować zespół , ale niektóre objawy mogą pokrywają się w różnych chorobach. Dobrą dyskusję można znaleźć w Cramer i wsp., Comorbidity: A perspektywy sieci (Behavioural and Brain Sciences 2010, 33, 137-193).

Nieco powiązaną techniką jest wspólne filtrowanie . Dobra recenzja została udostępniona przez Su i Khoshgoftaar ( Advances in Artificial Intelligence , 2009): A Survey of Collaborative Filtering Techniques . Inne odniesienia są wymienione na końcu. Być może wiąże się z tym również analiza częstych zestawów przedmiotów , jak pokazano na przykładzie problemu z koszykiem , ale nigdy tego nie badałem. Kolejnym przykładem ko-klastrowania jest sytuacja, gdy chcemy jednocześnie grupować słowa i dokumenty, jak w przypadku eksploracji tekstu, np. Dhillon (2001). Ko-klastrowanie dokumentów i słów za pomocą dwustronnego podziału spektralnego . Proc. KDD , s. 269–274.

O niektórych ogólnych odniesieniach, oto niezbyt wyczerpująca lista, która, mam nadzieję, może okazać się przydatna:

Jain, AK (2010). Grupowanie danych: 50 lat ponad K-średnich . Pattern Recognition Letters , 31 , 651–666
Carmona-Saez i in. (2006). Przetwarzanie danych dotyczących ekspresji genów przez nierównomierną nieujemną faktoryzację macierzy . BMC Bioinformatics , 7 , 78.
Prelic i in. (2006). Systematyczne porównanie i ocena metod biclustering dla danych dotyczących ekspresji genów . Bioinformatics , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
DiMaggio i in. (2008). Biclustering poprzez optymalne ponowne uporządkowanie matryc danych w biologii systemów: rygorystyczne metody i badania porównawcze . BMC Bioinformatics , 9 , 458.
Santamaria i in. (2008). BicOverlapper: narzędzie do wizualizacji bicluster . Bioinformatics , 24 (9) , 1212-1213.
Madeira, SC i Oliveira, AL (2004) Algorytmy Bicluster do analizy danych biologicznych: ankieta . IEEE Trans. Comput. Biol. Bioinform. , 1 , 24–45.
Badea, L. (2009). Uogólnione klastry do nakładających się na siebie klastrów . IJCAI
Symeonidis, P. (2006). Filtrowanie grupowe Nearest-Biclusters . WEBKDD

— chl
źródło

1

Świetna odpowiedź. Gdybym miał kolejny głos, ponownie głosowałbym na tę odpowiedź.

— Henry B.

@chl Pierwszy link do slajdów Pardalos wydaje się być martwy. Czy ktoś wie o alternatywnej lokalizacji?

— Erik,

@Erik Większość materiałów ze slajdów można znaleźć w artykule Konsekwentne kopiowanie za pomocą ułamkowego programowania 0–1 tego samego autora. (Sprawdziłem zawartość slajdów z kopią martwego linku.)

— chl

4

Oto dobra ankieta / opinia:

Stanislav Busygin, Oleg Prokopyev i Panos M. Pardalos. Rowerem w eksploracji danych . Computers & Operations Research, 35 (9): 2964–2987, wrzesień 2008 r.

— kc2001
źródło