Jakie są „gorące algorytmy” uczenia maszynowego?

14

To naiwne pytanie kogoś, kto zaczyna uczyć się uczenia maszynowego. Czytam dziś książkę „Machine Learning: algorytmiczna perspektywa” z Marsland. Uważam, że jest przydatna jako książka wprowadzająca, ale teraz chciałbym przejść do zaawansowanych algorytmów, które dają obecnie najlepsze wyniki. Najbardziej interesuje mnie bioinformatyka: grupowanie sieci biologicznych i znajdowanie wzorców w sekwencjach biologicznych, szczególnie stosowanych w analizie polimorfizmu pojedynczego nukleotydu (SNP). Czy możesz mi polecić jakieś recenzje lub książki do przeczytania?

machine-learning clustering bioinformatics

— xAx
źródło

15

Głębokie uczenie się koncentruje się od 2006 roku. Jest to zasadniczo podejście do trenowania głębokich sieci neuronowych i prowadzi do naprawdę imponujących wyników w bardzo trudnych zestawach danych (takich jak klastrowanie dokumentów lub rozpoznawanie obiektów). Niektórzy mówią o renesansie drugiej sieci neuronowej (np tym przemówieniu Google autorstwa Schmidhubera).

Jeśli chcesz być pod wrażeniem, zapoznaj się z tym artykułem naukowym Zmniejszenie wymiarów danych za pomocą sieci neuronowych, Hinton i Salakhutdinov.

(W tej dziedzinie dzieje się teraz tak wiele, że znają tylko dwie nadchodzące książki na ten temat: Uczenie maszynowe na dużą skalę , Langford i in. Oraz Machine Learning: perspektywa probabilistyczna Kevina Murphy'ego).

Jeśli chcesz dowiedzieć się więcej, sprawdź, co robią główne grupy głębokiego uczenia się: Stanford , Montreal, a przede wszystkim Toronto nr 1 i Toronto nr 2 .

— bayerj
źródło

8

Większość podanych do tej pory odpowiedzi odnosi się do „Uczenia nadzorowanego” (tzn. Gdy masz etykiety dla części swojego zestawu danych, których możesz użyć do szkolenia algorytmów). Pytanie konkretnie dotyczyło grupowania, które jest podejściem „bez nadzoru” (tzn. Wcześniej nie znano żadnych etykiet). W tym scenariuszu sugerowałbym spojrzenie na:

k-średnich i k-średnich jądra
Grupowanie aglomeracyjne
Nieujemna faktoryzacja macierzy
Utajony przydział Dirichleta
Procesy Dirichleta i Hierarchiczne procesy Dirichleta

Ale tak naprawdę prawdopodobnie zauważysz, że twoje podobieństwo / miara odległości jest ważniejsza niż określony algorytm, którego używasz.

Jeśli masz jakieś oznakowane dane, wówczas podejście „częściowo nadzorowane” zyskuje popularność i może być bardzo skuteczne. Dobrym punktem wyjścia dla SSL jest LapSVM (Laplacian Support Vector Machine).

— tdc
źródło

7

Oto książki, które mogą być pomocne:

Wprowadzenie do eksploracji danych autorstwa Pang-Ning Tan, Michaela Steinbacha, Vipina Kumara. To była sugerowana książka podczas moich zajęć Data Mining na uniwersytecie. Podoba mi się jego układ i podejście teoretyczne;
Data Mining: praktyczne narzędzia i techniki uczenia maszynowego Ian H. Witten, Eibe Frank, Mark A. Hall. Bardzo interesująca książka. Ta książka obejmuje również wiele technik wdrożonych w ramach Data Mining Framework WEKA ;
Uczenie maszynowe Thomasa Mitchella. Jest to nieco stara książka, ale może być przydatna.

Pamiętaj, że możesz wziąć udział w bezpłatnych zajęciach uczenia maszynowego w Stanford, które właśnie rozpoczęły się: www.ml-class.com .

Jeśli chodzi o konkretny problem, jakim jest analiza SNP, proponuję zajrzeć do grupy Di Camillo z Uniwersytetu w Padwie.

— Simone
źródło

5

Oto świetny artykuł i książka wyjaśniająca uzasadnienie, teorię i zastosowanie większości najpopularniejszych metod:

10 najlepszych algorytmów w eksploracji danych

Jest to szczególnie miłe, ponieważ jest to „10 najlepszych” wybranych przez ekspertów w tej dziedzinie.

Również w przypadku danych genowych wybór cech jest niezwykle ważny ze względu na wiele cech. Na przykład rekurencyjna eliminacja cech SVM (SVM-RFE) i powiązane metody są bardzo popularne i są aktywnie rozwijane i stosowane w kontekście danych genowych.

— John Colby
źródło

4

Wzmocnione drzewa i niektóre formy svm wygrywają wiele konkursów, ale zawsze sprowadza się to do kontekstu. Ulepszanie kolektorów również znajduje się w czołówce.

— Patrick McCann
źródło

4

Polecam „Elementy statystycznego uczenia się” Hastie, Tibshirani i Friedmana. Nie czytaj go po prostu, baw się z niektórymi algorytmami przez nie opisanymi (większość z nich jest zaimplementowana w języku R lub możesz nawet zaimplementować niektóre samodzielnie), i poznaj ich słabe i mocne strony.

— użytkownik31264
źródło

3

Poleciłbym następujące książki

— Biostat
źródło

3

Procesy Gaussa dla uczenia maszynowego Rasmussena i Williamsa (MIT Press) są koniecznością. Procesy gaussowskie są obecnie jednym z gorących algorytmów uczenia maszynowego, ponieważ dostępne są algorytmy propagacji oczekiwań i wnioskowania wariacyjnego. Książka jest bardzo dobrze napisana, ma darmowy zestaw narzędzi MATLAB (dobry zestaw), a książkę można pobrać za darmo.

— Dikran Torbacz
źródło