Extreme learning machine: o co w tym wszystkim chodzi?

Od ponad roku zastanawiam się, wdrażam i stosuję paradygmat Extreme Learning Machine (ELM), a im dłużej to robię, tym bardziej wątpię, czy to naprawdę dobra rzecz. Wydaje mi się jednak, że moja opinia jest sprzeczna ze środowiskiem naukowym, w którym - gdy używa się cytatów i nowych publikacji jako środka - wydaje się, że jest to gorący temat.

ELM został wprowadzony przez Huang i in. glin. około 2003 r. Podstawowa idea jest raczej prosta: zacznij od 2-warstwowej sztucznej sieci neuronowej i losowo przypisz współczynniki w pierwszej warstwie. To przekształca nieliniowy problem optymalizacji, który zwykle jest obsługiwany przez propagację wsteczną, w prosty problem regresji liniowej. Bardziej szczegółowo, dla model jest $\mathbf x \in \mathbb R^D$

f (x) = \sum_{i = 1}^{N_{hidden}} w_{i} σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

Teraz korygowane są tylko wartości (aby zminimalizować utratę błędu kwadratu), natomiast wartości są wybierane losowo. Aby zrekompensować utratę stopni swobody, zwykle sugeruje się użycie dość dużej liczby ukrytych węzłów (tj. Wolnych parametrów ). $w_i$ $v_{ik}$ $w_i$

Z innej perspektywy (nie ten zwykle promowane w literaturze, która pochodzi ze strony sieci neuronowe), cała procedura jest po prostu regresja liniowa, ale gdzie wybrać swoje funkcje bazowe losowo, na przykład $\phi$

ϕ_{i} (x) = σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$\phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

(Istnieje wiele innych opcji oprócz sigmoidów dla funkcji losowych. Na przykład ta sama zasada została zastosowana również przy użyciu radialnych funkcji bazowych).

Z tego punktu widzenia cała metoda staje się prawie zbyt uproszczona, i w tym miejscu zaczynam wątpić, że metoda jest naprawdę dobra (... podczas gdy jej marketing naukowy z pewnością jest). Oto moje pytania:

Pomysł rastrowania przestrzeni wejściowej przy użyciu losowych funkcji bazowych jest, moim zdaniem, dobry dla małych wymiarów. Wydaje mi się, że w wysokich wymiarach nie można znaleźć dobrego wyboru za pomocą losowego wyboru z rozsądną liczbą funkcji podstawowych. Czy zatem ELM ulega degradacji w wysokich wymiarach (z powodu przekleństwa wymiarowości)?
Czy znasz wyniki eksperymentalne potwierdzające / zaprzeczające tej opinii? W powiązanym artykule jest tylko jeden zbiór danych regresji 27-wymiarowej (PYRIM), w którym metoda działa podobnie do SVM (podczas gdy wolałbym zobaczyć porównanie do ANN z propagacją wsteczną)
Mówiąc bardziej ogólnie, chciałbym tutaj przedstawić swoje uwagi dotyczące metody ELM.

regression

— davidhigh
źródło

Zobacz tutaj pełną historię: theanonymousemail.com/view/?msg=ZHEZJ1AJ

— davidhigh

Odpowiedzi:

Twoja intuicja dotycząca używania ELM do problemów wysokowymiarowych jest poprawna, mam na ten temat pewne wyniki, które przygotowuję do publikacji. W przypadku wielu problemów praktycznych dane nie są bardzo nieliniowe, a ELM radzi sobie całkiem dobrze, ale zawsze będą zestawy danych, w których przekleństwo wymiarów oznacza, że szansa na znalezienie właściwej funkcji bazowej z krzywizną dokładnie tam, gdzie jej potrzebujesz, staje się raczej małe, nawet z wieloma wektorami podstawowymi.

Osobiście użyłbym czegoś w rodzaju maszyny wektorowej wspierającej najmniejszych kwadratów (lub sieci radialnej funkcji bazowej) i starałem się wybierać wektory podstawowe spośród tych w zestawie szkoleniowym w zachłanny sposób (patrz np. Mój artykuł , ale były inne / lepsze podejścia, które zostały opublikowane w tym samym czasie, np. w bardzo dobrej książce Scholkopfa i Smoli na temat „Uczenie się z jąder”). Myślę, że lepiej jest obliczyć przybliżone rozwiązanie konkretnego problemu niż dokładne rozwiązanie przybliżonego problemu, a maszyny jądra mają lepsze podstawy teoretyczne (dla stałego jądra; o).

— Dikran Torbacz
źródło

+1. Nigdy wcześniej nie słyszałem o ELM, ale z opisu w OP brzmi to trochę jak automat stanu ciekłego (LSM): losowa łączność sieciowa i optymalizacja tylko wag odczytu. Jednak w LSM losowy „zbiornik” powraca, podczas gdy w ELM jest przekazywany do przodu. Czy to rzeczywiście podobieństwo i różnica?

— ameba mówi Przywróć Monikę

k (x, x_{i})

$k(\mathbf x,\mathbf x_i)$

x_{i}

$\mathbf x_i$

@amoeba: Nie znałem maszyny stanu płynnego, ale z tego, co mówisz, brzmi to naprawdę bardzo podobnie ... i oczywiście bardziej ogólnie rzecz biorąc. Mimo to rekurencja dodaje do problemu bardziej złożoną formę losowości, która moim zdaniem nie leczy problemów z przekleństwem wymiarowości (... ale dobrze, kto to robi?). Czy te wagi rekurencyjne są wybierane ostrożnie, czy też są całkowicie losowe?

— davidhigh

@davidhigh dla jądra RBF, „twierdzenia reprezentujące” pokazują, że nie ma lepszego rozwiązania niż wyśrodkowanie funkcji bazowej na każdej próbce szkoleniowej (przyjmując pewne rozsądne założenia dotyczące regulowanej funkcji kosztów). Jest to jedna z fajnych cech metod jądra (i splajnów), więc nie ma potrzeby ich losowego rozpowszechniania. Nawiasem mówiąc, konstruowanie modelu liniowego na wyjściu losowo wybranych funkcji bazowych ma bardzo długą historię, moim ulubionym jest perceptron wyszukiwania jednowarstwowego ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1 ale ja może być stronniczy!

— Dikran Torbacz

@DikranMarsupial opublikowałeś lub masz jakieś dostępne publikacje wstępne?

— Tom Hale,

ELM „uczy się” z danych poprzez analityczne rozwiązywanie wag wyjściowych. Zatem im większe dane, które są wprowadzane do sieci, będą dawały lepsze wyniki. Wymaga to jednak większej liczby ukrytych węzłów. Jeśli ELM jest trenowany z niewielkim błędem lub bez błędu, po otrzymaniu nowego zestawu danych wejściowych nie jest w stanie wygenerować prawidłowego wyniku.

Główną przewagą ELM nad tradycyjną siecią neuronową, taką jak propagacja wsteczna, jest szybki czas treningu. Większość czasu obliczeniowego spędza się na rozwiązaniu ciężaru warstwy wyjściowej, jak wspomniano w papierze Huanga.

— użytkownik62106
źródło