Kiedy korzystać z czego - Uczenie maszynowe [zamknięte]


39

Niedawno na zajęciach uczenia maszynowego u profesora Oriola Pujola z UPC / Barcelona opisał najczęstsze algorytmy, zasady i koncepcje do wykorzystania w szerokim zakresie zadań związanych z uczeniem maszynowym. Tutaj dzielę się nimi z tobą i pytam:

  • czy istnieją jakieś kompleksowe ramy dopasowujące zadania z podejściami lub metodami związanymi z różnymi rodzajami problemów związanych z uczeniem maszynowym?

Jak nauczyć się prostego gaussowskiego? Prawdopodobieństwo, zmienne losowe, rozkłady; estymacja, zbieżność i asymptotyka, przedział ufności.

Jak nauczyć się mieszanki Gaussów (MoG)? Prawdopodobieństwo, Oczekiwanie-Maksymalizacja (EM); uogólnienie, wybór modelu, walidacja krzyżowa; k-średnie, ukryte modele Markowa (HMM)

Jak nauczyć się jakiejkolwiek gęstości? Estymacja parametryczna a nieparametryczna, Sobolejew i inne przestrzenie funkcjonalne; błąd l ́ 2; Szacowanie gęstości jądra (KDE), optymalne jądro, teoria KDE

Jak przewidzieć zmienną ciągłą (regresję)? Regresja liniowa, regularyzacja, regresja kalenicowa i LASSO; lokalna regresja liniowa; estymacja gęstości warunkowej.

Jak przewidzieć zmienną dyskretną (klasyfikację)? Klasyfikator Bayesa, naiwny Bayesa, generatywny vs. dyskryminacyjny; perceptron, rozkład masy, liniowa maszyna wektora nośnego; najbliższy sąsiad klasyfikator i teoria

Z jakiej funkcji utraty należy korzystać? Teoria szacowania maksymalnego prawdopodobieństwa; oszacowanie l -2; Oszacowanie Bayessa; teoria minimaks i teorii decyzji, bayesianizm a częstość

Którego modelu powinienem użyć? AIC i BIC; Teoria Vapnika-Chervonenskisa; teoria walidacji krzyżowej; ładowanie; Teoria prawdopodobnie w przybliżeniu poprawna (PAC); Granice pochodzące od Hoeffdinga

Jak mogę nauczyć się bardziej zaawansowanych (połączonych) modeli? Teoria uczenia się w zespole; wzmocnienie; parcianka; układanie w stosy

Jak mogę nauczyć się bardziej wyszukanych (nieliniowych) modeli? Uogólnione modele liniowe, regresja logistyczna; Twierdzenie Kołmogorowa, uogólnione modele addytywne; jądro, odtwarzanie przestrzeni jądra Hilberta, nieliniowa SVM, regresja procesu Gaussa

Jak mogę nauczyć się bardziej wytwornych (kompozytowych) modeli? Modele rekurencyjne, drzewa decyzyjne, hierarchiczne grupowanie; sieci neuronowe, propagacja wsteczna, sieci głębokiej wiary; modele graficzne, mieszanki HMM, warunkowe pola losowe, maksymalne marże sieci Markowa; modele logarytmiczno-liniowe; gramatyki

Jak zmniejszyć lub powiązać funkcje? Wybór cech a redukcja wymiarów, metody owijania do wyboru cech; przyczynowość a korelacja, korelacja częściowa, uczenie się struktury netto Bayesa

Jak utworzyć nowe funkcje? analiza głównych składników (PCA), niezależna analiza składników (ICA), skalowanie wielowymiarowe, różnorodne uczenie się, nadzorowana redukcja wymiarów, uczenie metryczne

Jak zmniejszyć lub powiązać dane? Klastrowanie, bi-klastrowanie, klastrowanie ograniczone; zasady stowarzyszenia i analiza koszyka rynkowego; regresja rankingowa / porządkowa; analiza linków; dane relacyjne

Jak traktować szeregi czasowe? ARMA; Filtr Kalmana i modele w przestrzeni statycznej, filtr cząstek; funkcjonalna analiza danych; wykrywanie punktu zmiany; cross-validation dla szeregów czasowych

Jak leczyć nie idealne dane? przesunięcie współzmienne; brak równowagi klas; brakujące dane, nieregularnie próbkowane dane, błędy pomiarowe; wykrywanie anomalii, odporność

Jak zoptymalizować parametry? Optymalizacja nieograniczona a ograniczona / wypukła, metody bez pochodnych, metody pierwszego i drugiego rzędu, dopasowanie; naturalny gradient; związana optymalizacja i EM

Jak zoptymalizować funkcje liniowe? obliczeniowa algebra liniowa, inwersja macierzy dla regresji, rozkład wartości osobliwych (SVD) dla redukcji wymiarowości

Jak zoptymalizować z ograniczeniami? Wypukłość, mnożniki Lagrange'a, warunki Karusha-Kuhna-Tuckera, metody punktów wewnętrznych, algorytm SMO dla SVM

Jak ocenić głęboko zagnieżdżone kwoty? Dokładne wnioskowanie o modelu graficznym, ograniczenia wariacyjne sum, przybliżone wnioskowanie o modelu graficznym, propagacja oczekiwań

Jak oceniać duże kwoty i wyszukiwania? Uogólnione problemy z ciałem N (GNP), hierarchiczne struktury danych, wyszukiwanie najbliższego sąsiada, szybka metoda wielokrotna; Integracja z Monte Carlo, Markov Chain Monte Carlo, Monte Carlo SVD

Jak leczyć jeszcze większe problemy? Równoległe / rozproszone EM, równoległe / rozproszone PNB; stochastyczne metody podporządkowania, nauka online

Jak zastosować to wszystko w prawdziwym świecie? Przegląd części ML, wybór między metodami stosowanymi do każdego zadania, wcześniejszą wiedzą i założeniami; eksploracyjna analiza danych i wizualizacja informacji; ocena i interpretacja, z wykorzystaniem przedziałów ufności i testu hipotez, krzywych ROC; gdzie są problemy badawcze w ML


Naprawdę szeroki. Myślę, że każde pytanie cząstkowe musi być osobnym pytaniem, aby uzyskać sensowną odpowiedź.
Amir Ali Akbari

2
To pytanie można zakwalifikować jako zbyt szerokie lub niezbyt szerokie, w zależności od tego, jak na to spojrzysz. Gdyby pytanie zawierało szczegółowy opis zadań i metod, byłoby to z pewnością szerokie nie tylko dla pytania, ale nawet dla jednej książki. Nie sądzę jednak, aby to pytanie sugerowało taką interpretację . Uważam, że to pytanie dotyczy struktury lub taksonomii , dopasowując zadania do podejść lub metod ( algorytmy i koncepcje powinny być ignorowane z powodu problemów z ziarnistością). Z tej perspektywy odpowiedź ta nie jest zbyt szeroka i dlatego jest ważna dla IMHO.
Aleksandr Blekh

@AleksandrBlekh Dokładnie ramy, o których wspominasz, są intencją pytania. Edytuję to, aby wyjaśnić. Dziękuję
Javierfdr

@Javierfdr: Nie ma za co.
Aleksandr Blekh

@SeanOwen Zmodyfikowałem główne pytanie. Poinformuj mnie, czy nadal jest szeroki i że muszę go wyostrzyć. Dzięki!
Javierfdr

Odpowiedzi:


6

Zgadzam się z @geogaffer. To naprawdę bardzo dobra lista. Widzę jednak pewne problemy z tą listą, ponieważ jest ona obecnie sformułowana. Na przykład jedną kwestią jest to, że sugerowane rozwiązania mają różne poziomy szczegółowości - niektóre z nich reprezentują podejścia , niektóre - metody , niektóre - algorytmy , a niektóre inne - tylko pojęcia (innymi słowy, terminy w obrębie terminologii domeny danego tematu). Ponadto - i uważam, że jest to o wiele ważniejsze niż powyższe - uważam, że byłoby bardzo cenne, gdyby wszystkie te rozwiązania na liście były ułożone w ujednoliconych tematycznych ramach statystycznych. Pomysł ten został zainspirowany przeczytaniem doskonałej książki Lisy Harlow „Esencja myślenia wielowymiarowego”. Dlatego niedawno zainicjowałem odpowiednią, choć obecnie nieco ograniczoną, dyskusję na stronie StackExchange w Cross Validated . Nie daj się zwieść tytułowi - moja domniemana intencja i nadzieja dotyczy budowy zunifikowanych ram , jak wspomniano powyżej.


Ramy, o których wspomniałeś, byłyby wspaniałe! Czy napisano coś podobnego?
Javierfdr

@Javierfdr: Nic mi nie wiadomo. Jednak wciąż szukam.
Aleksandr Blekh

@AleksandrBlekh im więcej o tym myślę, tym bardziej myślę, że poszukiwanie ram statystycznych jest mylne. Zobacz odpowiedź Franka Harrella na twoje pytanie i moją odpowiedź na to pytanie. Ale książka Harlowa brzmi naprawdę interesująco i w tym tygodniu odbiorę ją z biblioteki.
shadowtalker

1
@ssdecontrol: Z szacunkiem się nie zgadzam. Zakładając, że takie ramy nie istnieją (co jest najprawdopodobniej w chwili obecnej) i zdając sobie sprawę, że ich utworzenie nie jest łatwym zadaniem, mocno wierzę, że jest to jednak bardzo możliwe. Jeśli chodzi o odpowiedzi, o których wspomniałeś (zawsze czytam wszystkie), czytam oba, ale nie dowodzą one, że tworzenie takich ram jest niemożliwe - po prostu trudne, jak już wspomniałem. To nie powinno powstrzymywać ludzi przed myśleniem o tym, a nawet działaniem w tym kierunku. Ciesz się książką Harlowa.
Aleksandr Blekh

3

To dobra lista obejmująca wiele. Użyłem niektórych z tych metod, zanim jeszcze coś nazywało się uczeniem maszynowym i myślę, że zobaczysz niektóre z wymienionych metod, które pojawią się i zejdą z czasem. Jeśli metoda zbyt długo nie była przychylna, może być czas na ponowną wizytę. Niektóre metody mogą zaciemniać inne nazwy wynikające z różnych dziedzin studiów.

Jednym z głównych obszarów, w których zastosowałem te metody, jest modelowanie potencjału mineralnego, które jest geoprzestrzenne, i aby wspomóc, że można dodać kilka dodatkowych kategorii związanych z metodami danych przestrzennych i zorientowanych.

Przekazanie ogólnego pytania do konkretnych pól prawdopodobnie będzie miejscem, w którym znajdziesz więcej przykładów metod, których nie ma na wyczerpującej liście. Na przykład dwie metody, które widziałem w zakresie potencjału mineralnego, to regresja krokowa wstecz i modelowanie wag dowodów. Nie jestem statystykiem; być może zostaną one uwzględnione w wykazie w ramach regresji liniowej i metod bayesowskich.


1

Myślę, że twoje podejście jest trochę wstecz.

„Co oznacza rozkład Gaussa dopasowany do tych danych?” nigdy nie stanowi problemu, więc „jak dopasować Gaussa?” nigdy nie jest problemem, który naprawdę chcesz rozwiązać.

Różnica jest czymś więcej niż semantycznym. Zastanów się nad pytaniem „jak zbudować nowe funkcje?” Jeśli Twoim celem jest opracowanie indeksu, możesz użyć pewnego rodzaju analizy czynnikowej. Jeśli Twoim celem jest po prostu zmniejszenie przestrzeni cech przed dopasowaniem modelu liniowego, możesz całkowicie pominąć krok i zamiast tego użyć regresji elastycznej siatki.

Lepszym rozwiązaniem byłoby skompilowanie listy rzeczywistych zadań analizy danych, z którymi chciałbyś się zmierzyć . Pytania takie jak:

Jak przewidzieć, czy klienci powrócą do mojej witryny zakupów?

Jak dowiedzieć się, ile jest „głównych” wzorców zakupów konsumenckich i jakie są?

Jak zbudować indeks „zmienności” dla różnych produktów w moim sklepie internetowym?

Również twoja lista zawiera teraz ogromną ilość materiału; zdecydowanie za dużo, by „przejrzeć” i zdobyć więcej niż zrozumienie na poziomie powierzchni. Właściwy cel może pomóc w ustaleniu priorytetów.


Rozumiem, co mówisz @ssdecontrol, posiadanie obszernej listy rozwiązań typowych problemów, o których wspominasz, może być również bardzo przydatne. Główna różnica między tymi dwoma podejściami polega na tym, że to, co proponuję, jest bezpośrednio powiązane z pytaniami technicznymi, które możesz sobie zadać, kiedy już wypróbowujesz alternatywy, i w tym momencie już poczyniłeś pewne założenia. że twoje funkcje nie są gaussowskie, czy powinienem używać PCA do redukcji wymiarów? Nie. Twoje podejście jest szersze: Czego użyć do przyciemnienia. redukcja -> PCA, ale przyjmuj cechy gaussowskie. Thx
Javierfdr

@Jierierfdr mam na myśli to, że pytania techniczne rozpraszają uwagę, jeśli nie masz na myśli merytorycznego pytania.
shadowtalker
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.