Mój doktorat jest w czystej matematyce i przyznaję, że niewiele wiem (tj. nic) na temat teoretycznej CS. Jednak zacząłem badać opcje pozaakademickie w mojej karierze i zapoznałem się z uczeniem maszynowym, natknąłem się na takie stwierdzenia, jak: „Nikt nie rozumie, dlaczego sieci neuronowe działają dobrze”, co uznałem za interesujące.
Moje pytanie zasadniczo brzmi: jakiego rodzaju odpowiedzi oczekują badacze? Oto, co znalazłem podczas mojego krótkiego wyszukiwania na ten temat:
- Algorytmy implementujące proste sieci neuronowe są dość proste.
- Proces SGD jest dobrze rozumiany matematycznie, podobnie jak teoria statystyczna.
- Uniwersalne twierdzenie o aproksymacji jest potężne i udowodnione.
- Niedawno opublikowano ładny artykuł https://arxiv.org/abs/1608.08225, który zasadniczo daje odpowiedź, że uniwersalne przybliżenie to znacznie więcej niż w rzeczywistości potrzebujemy, ponieważ możemy poczynić silne uproszczenia założenia dotyczące funkcji, które próbujemy modelować za pomocą sieć neuronowa.
We wspomnianym artykule stwierdzają (parafrazują) „Algorytmy GOFAI są w pełni rozumiane analitycznie, ale wiele algorytmów ANN jest rozumianych tylko heurystycznie”. Twierdzenia o konwergencji dla zaimplementowanych algorytmów są przykładem analitycznego zrozumienia, że wydaje się, że mamy do czynienia z sieciami neuronowymi, więc stwierdzenie na tym poziomie ogólności nie mówi mi wiele o tym, co znane, a co nieznane, lub co można by uznać za „odpowiedź . ”
Autorzy sugerują we wniosku, że pytania takie jak skuteczne ograniczenia wielkości sieci neuronowej potrzebne do przybliżenia danego wielomianu są otwarte i interesujące. Jakie są inne przykłady matematycznych pytań analitycznych, na które należy odpowiedzieć, aby powiedzieć, że „rozumiemy” sieci neuronowe? Czy są pytania, na które można odpowiedzieć w bardziej czystym języku matematycznym?
(W szczególności myślę o metodach teorii reprezentacji ze względu na zastosowanie fizyki w tym artykule --- i, samolubnie, ponieważ jest to moja dziedzina badań. Mogę jednak również wyobrazić sobie obszary takie jak kombinatoryka / teoria grafów, geometria algebraiczna oraz topologia zapewniająca realne narzędzia).