Od ponad roku zastanawiam się, wdrażam i stosuję paradygmat Extreme Learning Machine (ELM), a im dłużej to robię, tym bardziej wątpię, czy to naprawdę dobra rzecz. Wydaje mi się jednak, że moja opinia jest sprzeczna ze środowiskiem naukowym, w którym - gdy używa się cytatów i nowych publikacji jako środka - wydaje się, że jest to gorący temat.
ELM został wprowadzony przez Huang i in. glin. około 2003 r. Podstawowa idea jest raczej prosta: zacznij od 2-warstwowej sztucznej sieci neuronowej i losowo przypisz współczynniki w pierwszej warstwie. To przekształca nieliniowy problem optymalizacji, który zwykle jest obsługiwany przez propagację wsteczną, w prosty problem regresji liniowej. Bardziej szczegółowo, dla model jest
Teraz korygowane są tylko wartości (aby zminimalizować utratę błędu kwadratu), natomiast wartości v i k są wybierane losowo. Aby zrekompensować utratę stopni swobody, zwykle sugeruje się użycie dość dużej liczby ukrytych węzłów (tj. Wolnych parametrów w i ).
Z innej perspektywy (nie ten zwykle promowane w literaturze, która pochodzi ze strony sieci neuronowe), cała procedura jest po prostu regresja liniowa, ale gdzie wybrać swoje funkcje bazowe losowo, na przykład
(Istnieje wiele innych opcji oprócz sigmoidów dla funkcji losowych. Na przykład ta sama zasada została zastosowana również przy użyciu radialnych funkcji bazowych).
Z tego punktu widzenia cała metoda staje się prawie zbyt uproszczona, i w tym miejscu zaczynam wątpić, że metoda jest naprawdę dobra (... podczas gdy jej marketing naukowy z pewnością jest). Oto moje pytania:
Pomysł rastrowania przestrzeni wejściowej przy użyciu losowych funkcji bazowych jest, moim zdaniem, dobry dla małych wymiarów. Wydaje mi się, że w wysokich wymiarach nie można znaleźć dobrego wyboru za pomocą losowego wyboru z rozsądną liczbą funkcji podstawowych. Czy zatem ELM ulega degradacji w wysokich wymiarach (z powodu przekleństwa wymiarowości)?
Czy znasz wyniki eksperymentalne potwierdzające / zaprzeczające tej opinii? W powiązanym artykule jest tylko jeden zbiór danych regresji 27-wymiarowej (PYRIM), w którym metoda działa podobnie do SVM (podczas gdy wolałbym zobaczyć porównanie do ANN z propagacją wsteczną)
Mówiąc bardziej ogólnie, chciałbym tutaj przedstawić swoje uwagi dotyczące metody ELM.