Teoretyczne wyniki za sztucznymi sieciami neuronowymi


13

Właśnie omówiłem Sztuczne sieci neuronowe na kursie Machine Learning Coursera i chciałbym poznać więcej teorii za nimi. Motywacja, którą naśladują biologię, jest dla mnie niezadowalająca.

Na powierzchni wydaje się, że na każdym poziomie zastępujemy zmienne towarzyszące ich liniową kombinacją. Robiąc to wielokrotnie, pozwalamy na nieliniowe dopasowanie modelu. Nasuwa się pytanie: dlaczego sieci neuronowe są czasem preferowane zamiast dopasowywania modelu nieliniowego.

Mówiąc bardziej ogólnie, chciałbym wiedzieć, w jaki sposób sztuczne sieci neuronowe mieszczą się w Bayesowskich ramach wnioskowania, które są szczegółowo opisane w książce ET Jaynesa „Prawdopodobieństwo: logika nauki”. Innymi słowy, dlaczego sztuczne sieci neuronowe działają, kiedy działają? I oczywiście fakt, że dokonują udanych prognoz, oznacza, że ​​postępują zgodnie z wyżej wymienionymi ramami.

Odpowiedzi:


16

Oto cytat z „ A Backward Look to the Future ” autorstwa ET Jaynesa.

Nowe Adhockeries

W ostatnich latach ortodoksyjny zwyczaj wymyślania intuicyjnych urządzeń zamiast odwoływania się do jakichkolwiek powiązanych zasad teoretycznych został rozszerzony na nowe problemy w taki sposób, że na pierwszy rzut oka wydaje się, że powstało kilka nowych dziedzin nauki. Jednak wszystkie dotyczą rozumowania na podstawie niepełnych informacji; i wierzymy, że mamy twierdzenia ustalające, że teoria prawdopodobieństwa jako logika jest ogólnym sposobem radzenia sobie ze wszystkimi takimi problemami. Zwracamy uwagę na trzy przykłady.

Zestawy rozmyte są - oczywiście dla każdego, kto jest przeszkolony w zakresie wnioskowania bayesowskiego - przybliżone przybliżenia wcześniejszych prawdopodobieństw bayesowskich. Zostali stworzeni tylko dlatego, że ich praktykujący uporczywie myśleli o prawdopodobieństwie w kategoriach „losowości”, która miała istnieć w Naturze, ale nigdy nie była dobrze zdefiniowana; i doszedł do wniosku, że teoria prawdopodobieństwa nie ma zastosowania do takich problemów. Gdy tylko rozpozna się prawdopodobieństwo jako ogólny sposób określania niekompletnych informacji , powód wprowadzenia zbiorów rozmytych znika.

Podobnie duża część sztucznej inteligencji (AI) to zbiór intuicyjnych urządzeń do wnioskowania na podstawie niepełnych informacji, które, podobnie jak starsze statystyki ortodoksyjne, są zbliżone do metod bayesowskich i można je zastosować w niektórych ograniczonych klasach problemów; ale które prowadzą do absurdalnych wniosków, gdy próbujemy zastosować je do problemów poza tą klasą. Ponownie, jego praktykujący są w to uwikłani tylko dlatego, że nadal myślą o prawdopodobieństwie jako o fizycznej „przypadkowości” zamiast niekompletnej informacji. W wnioskowaniu Bayesa wszystkie te wyniki są zawarte automatycznie - a raczej trywialnie - bez ograniczenia do ograniczonej klasy problemów.

Wspaniałym nowym rozwiązaniem są sieci neuronowe, co oznacza system algorytmów o cudownej nowej właściwości, że są one, podobnie jak ludzki mózg, przystosowalne, dzięki czemu mogą uczyć się na błędach z przeszłości i automatycznie się poprawiać (WOW! Co za wspaniały nowy pomysł!) . Rzeczywiście, nie dziwi nas, że sieci neuronowe są w rzeczywistości bardzo przydatne w wielu aplikacjach; bardziej niż Fuzzy Sets lub AI. Jednak obecne sieci neuronowe mają dwa praktyczne niedociągnięcia; (a) Dają wynik określony przez bieżące dane wejściowe plus informacje z poprzednich treningów. Ten wynik jest naprawdę szacunkowywłaściwej odpowiedzi, w oparciu o wszystkie dostępne informacje, ale nie daje żadnych wskazówek co do ich dokładności, a zatem nie mówi nam, jak blisko jesteśmy do celu (to znaczy, ile potrzeba więcej szkolenia); (b) Gdy potrzebna jest odpowiedź nieliniowa, odwołuje się do wewnętrznie przechowywanej standardowej funkcji „sigmoidalnej” nieliniowej, która przy różnych amplifikacjach i liniowych mieszaninach może być wykonana w przybliżeniu do pewnego stopnia prawdziwej funkcji nieliniowej. (Uwaga: moje podkreślenie).

Ale czy naprawdę musimy wskazać, że (1) Każda procedura dostosowująca się jest z definicji sposobem uwzględnienia niekompletnych informacji; (2) Twierdzenie Bayesa jest dokładnie matką wszystkich procedur adaptacyjnych; ogólna zasada aktualizacji jakiegokolwiek stanu wiedzy w celu uwzględnienia nowych informacji; (3) Gdy problemy te są sformułowane w kategoriach bayesowskich, pojedyncze obliczenie automatycznie daje zarówno najlepsze oszacowanie, jak i jego dokładność; (4) Jeśli wymagana jest nieliniowość, twierdzenie Bayesa automatycznie generuje dokładną funkcję nieliniową wymaganą przez problem, zamiast próbować zbudować przybliżenie do niego za pomocą innego urządzenia ad hoc .

Innymi słowy, twierdzimy, że wcale nie są to nowe pola; tylko fałszywe zaczyna. Jeśli sformułuje się wszystkie takie problemy na podstawie standardowej recepty bayesowskiej, automatycznie uzyska się wszystkie ich przydatne wyniki w ulepszonej formie. Trudności w zrozumieniu tego przez ludzi są przykładami tego samego niepowodzenia konceptualizacji relacji między abstrakcyjną matematyką a światem rzeczywistym. Gdy tylko uznamy, że prawdopodobieństwa nie opisują rzeczywistości - tylko nasze informacje o rzeczywistości - bramy są szeroko otwarte na optymalne rozwiązanie problemów rozumowania z tych informacji.

Kilka komentarzy:

  1. Punkt (a) ignoruje rozwój Bayesian Neural Networks, który rozpoczął się na przełomie lat osiemdziesiątych i dziewięćdziesiątych (zauważ jednak, że artykuł Jaynesa powstał w 1993 roku). Spójrz na ten post . Rozważ też przeczytanie pięknej pracy doktorskiej Yarina Gal i obejrzenie tej wspaniałej prezentacji Zoubina Ghahramaniego.

  2. Nie rozumiem, w jaki sposób punkt (b) może być „wadą”. W rzeczywistości jest to istotna przyczyna, dla której sieci neuronowe mogą dobrze przybliżać dużą klasę funkcji. Zauważ, że ostatnie udane architektury przeniosły się z aktywacji sigmoid na ReLU w warstwach wewnętrznych, faworyzując „głębię” nad „szerokością”. Twierdzenia o aproksymacji zostały niedawno udowodnione dla sieci ReLU.


2
+1 Nic nie jest bardziej satysfakcjonujące niż wiedza, gdzie dokładnie można znaleźć dokładne odniesienie do odpowiedzi.
Sycorax mówi Przywróć Monikę

5
Biorąc pod uwagę, że urządzenia ad hoc pokazały, że działają w wielu sytuacjach, produktywne byłoby wykazanie (lub obalenie), że po prostu pasują do ram Bayesa, a tym samym głębsze zrozumienie adhockeries, które są tak szeroko stosowane dni. Tego rodzaju praca mnie interesuje.
Tom Artiom Fiodorov

1

Przede wszystkim nie łączymy ze sobą funkcji liniowych w celu uzyskania funkcji nieliniowej. Istnieje wyraźny powód, dla którego NN mogą nigdy nie działać w ten sposób: Ułożenie funkcji liniowych w siebie spowodowałoby ponowne uzyskanie funkcji liniowej.

To, co czyni NN nieliniowymi, to funkcja aktywacji, która znajduje się za funkcją liniową! Jednak zasadniczo masz rację: po prostu łączymy ze sobą wiele regresji logistycznych (choć nie liniowych!) I ... tadaa: wyciągamy z tego coś dobrego ... czy to jest sprawiedliwe? Okazuje się, że (z teoretycznego punktu widzenia) tak naprawdę jest sprawiedliwy. Co gorsza: korzystając ze słynnego i dobrze znanego twierdzenia Stone-Weierstrass po prostu udowadniamy, że sieci neuronowe z tylko jedną ukrytą warstwą i bez funkcji wyjściowej w końcowym węźle wystarczają do przybliżenia dowolnych funkcji ciągłych (i wierz mi, funkcje ciągłe mogą być brzydkie bestie, patrz „schody diabła”: https://en.wikipedia.org/wiki/Cantor_distribution) w interwałach formularza [za,b]x↦ =b+za1ϕ1(x)+...+zalϕl(x)l

Dlaczego zatem używamy głębokich NN? Powodem jest to, że powyższe twierdzenie SW gwarantuje jedynie, że istnieje wystarczająco duży rozmiar warstwy, abyśmy mogli zbliżyć się do naszej (miejmy nadzieję ciągłej) funkcji celu. Jednak wymagany rozmiar warstwy może być tak duży, że żaden komputer nigdy nie poradziłby sobie z macierzami wagi tego rozmiaru. NN z bardziej ukrytymi warstwami wydają się być dobrym kompromisem między „dokładnością” a obliczalnością. Nie znam żadnych wyników teoretycznych, które wskazywałyby na kierunek „o ile” zwiększa się ekspresyjność NN po umieszczeniu większej ilości ukrytych warstw w porównaniu do zwykłego zwiększenia rozmiaru pojedynczej ukrytej warstwy, ale być może istnieją zasoby w sieci ...

Czy naprawdę możemy zrozumieć głębokie NN? Przykładowe pytania: Dlaczego dokładnie NN przewiduje, że ten przypadek jest PRAWDA, podczas gdy przewiduje inny, podobny przypadek jako FAŁSZ? Dlaczego dokładnie ocenia tego klienta bardziej wartościowego niż drugiego? Naprawdę w to nie wierzę. Wiąże się ze złożonością modelu, którego nie można już wystarczająco dobrze wyjaśnić ... Słyszę tylko, że jest to nadal aktywny obszar badań, ale nie znam żadnych zasobów ...

Co sprawia, że ​​NN są tak wyjątkowe wśród wszystkich modeli? Prawdziwy powód, dla którego tak często używamy NN, wynika z następujących dwóch powodów:

  1. Pochodzą one z naturalną właściwością „streaming”.
  2. Możemy pimpować je na maksa w wielu kierunkach.

T.faT.T.T.itp.) jest oparty na tej właściwości. Ludzie próbowali wprowadzić tę właściwość przesyłania strumieniowego do innych modeli (np. Gradient Boosting), ale nie przychodzi to tak naturalnie i nie jest tak tanie obliczeniowo, jak w konfiguracji NN.

Przez 2. Mam na myśli to, że ludzie przeszkolili NN do robienia najdziwniejszych rzeczy, ale w zasadzie po prostu użyli tego samego frameworka: układając w sobie płynne funkcje, a następnie pozwól komputerowi (tj. PyTorch / Tensorflow) zrobić dla ciebie brudną matematykę, jak na przykład komputer. pochodna funkcji straty wrt na wagi. Jednym z przykładów może być ten artykułgdzie ludzie zastosowali podejście RL, a także poprawili architekturę NN, aby nauczyć się złożonego języka substancji chemicznych, ucząc go, jak operować na stosie pamięci (!). Staraj się to robić z podwyższaniem gradientu ;-) Powodem, dla którego muszą to robić, jest to, że język chemikaliów jest co najmniej tak „trudny do nauczenia” jak język nawiasów klamrowych (tzn. Każdy nawias otwierający ma później zamykający wyraz w słowie ), ponieważ język SMILES używany przez ludzi do opisywania cząsteczek zawiera symbole „(” i „)”. Z informatyki teoretycznej (hierarchia Chomsky'ego) wiadomo, że nie można opisać tego języka za pomocą zwykłych automatów, ale potrzebne są automaty wypychające (tj. Automaty z pamięcią stosu). To była motywacja dla nich (tak sądzę) do nauczenia NN tej dziwnej rzeczy.


-1

„Dlaczego to działa, kiedy działa?”

n

Zatem całe uczenie maszynowe odbywa się podobnie ad hoc.

Uczenie maszynowe jest podobne do alchemii: istnieje wiele enigmatycznych przepisów, zastosujesz jeden z nich i możesz zdobyć złoto. Jeśli nie, zastosuj inny przepis.

Nikt nie zadaje pytania, które zadałeś, a przynajmniej nie w znanych mi publikacjach.

Ponadto istnieje statystyczna teoria uczenia się. Statystyczna teoria uczenia się zakłada, że ​​rozmiar zestawu treningowego spada do nieskończoności. Większość wyników, które znam, ma postać: „pod pewnymi warunkami, jeśli masz wystarczająco duży zestaw treningowy, możesz uzyskać prawie tak dobry wynik, jak to możliwe, stosując tę ​​procedurę”. Szacunki tego, co jest „wystarczająco duże”, są poza wyobraźnią.

Oczywiście problem polega na tym, że rozmiar zestawu treningowego nigdzie nie idzie, nie mówiąc już o nieskończoności.

Myślę więc, że nadszedł czas, aby (1) zadać to pytanie, (2) opracować aparat matematyczny, aby odpowiedzieć na pytanie dotyczące wszystkich możliwych algorytmów uczenia maszynowego i (3) odpowiedzieć na to pytanie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.