Jak napisałem w komentarzach, pytanie to wydaje mi się zbyt ogólne, ale spróbuję znaleźć odpowiedź. Aby wyznaczyć pewne granice, zacznę od małej matematyki, która leży u podstaw większości ML, a następnie skoncentruję się na najnowszych wynikach dla DL.
Bias-wariancji kompromis jest określany w niezliczonych książkach, kursach, MOOCs, blogi, tweety, itp na ML, więc nie można uruchomić bez wymieniania go:
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
Dowód tutaj: https://web.stanford.edu/~hastie/ElemStatLearn/
Twierdzenie Gaussa-Markowa (tak, regresja liniowa pozostanie ważną częścią uczenia maszynowego, bez względu na to: jak sobie z tym poradzić) wyjaśnia, że gdy model liniowy jest prawdziwy i niektóre założenia dotyczące terminu błędu są prawidłowe, OLS ma minimum średni błąd kwadratu (który w powyższym wyrażeniu jest po prostu ) tylko wśród bezstronnych estymatorów liniowych modelu liniowego. Tak więc mogą istnieć estymatory liniowe z odchyleniem (lub estymatory nieliniowe), które mają lepszy błąd średniej kwadratowej, a zatem lepszy oczekiwany błąd predykcji, niż OLS. A to toruje drogę do całego arsenału regularyzacji (regresja grzbietu, LASSO, spadek masy ciała itp.), Który jest koniem ML. Dowód jest podany tutaj (i w wielu innych książkach):
Bias2 + Variancehttps://www.amazon.com/Linear-Statistic-Models-James-Stapleton/dp/0470231467
Prawdopodobnie bardziej istotne dla eksplozji podejść regularyzacyjnych, jak zauważył Carlos Cinelli w komentarzach, i zdecydowanie przyjemniejsze do nauczenia się, jest twierdzenie Jamesa-Steina . Rozważ niezależnych, tej samej wariancji, ale nie takich samych średnich zmiennych losowych Gaussa:n
Xi|μi∼N(θi,σ2),i=1,…,n
innymi słowy, mamy składowy losowy wektor Gaussa . Mamy jedną próbkę z i chcemy oszacować . Estymatorem MLE (a także UMVUE) jest oczywiście . Rozważ estymator Jamesa-Steinan−X∼N(θ,σ2I)xXθθ^MLE=x
θ^JS=(1−(n−2)σ2||x||2)x
Oczywiście, jeśli , zmniejsza oszacowanie MLE do zera. James-Stein twierdzenie mówi, że dla , bezwzględnie dominuje , to znaczy, że ma niższy MSE . Dziwne, zaskakująco, nawet jeśli skurczymy się w kierunku jakiejkolwiek innej stałej , nadal dominuje . Od(n−2)σ2≤||x||2θ^JS n≥4θ^JS θ^MLE∀ θc≠0θ^JSθ^MLEXisą niezależne, może wydawać się dziwne, że próba oszacowania wzrostu trzech niepowiązanych osób, w tym próbki z liczby jabłek wyprodukowanych w Hiszpanii, może średnio poprawić naszą ocenę . Kluczową kwestią jest tutaj „średnio”: średni błąd kwadratowy dla równoczesnego oszacowania wszystkich składników wektora parametrów jest mniejszy, ale błąd kwadratowy dla jednego lub więcej składników może być znacznie większy i rzeczywiście często ma miejsce, gdy masz „ekstremalne” obserwacje.
Dowiedzenie się, że MLE, który był rzeczywiście „optymalnym” estymatorem w przypadku estymacji jednoczynnikowej, został zdetronizowany dla estymacji wielowymiarowej, było wówczas dość szokiem i doprowadziło do dużego zainteresowania skurczem, lepiej znanym jako regularyzacja w mowie ML. Można zauważyć pewne podobieństwa z modelami mieszanymi i koncepcją „siły zaciągania pożyczek”: rzeczywiście istnieje pewne powiązanie, jak omówiono tutaj
Ujednolicony pogląd na kurczenie się: jaka jest relacja (jeśli występuje) między paradoksem Steina, regresją grzbietu i efektami losowymi w modelach mieszanych?
Odniesienia: James, W., Stein, C., Estimation with Quadratic Loss . Materiały z czwartego sympozjum Berkeley na temat statystyki matematycznej i prawdopodobieństwa, tom 1: Wkład do teorii statystyki, 361--379, University of California Press, Berkeley, Kalifornia, 1961
Podstawowa analiza składowa jest kluczem do ważnego tematu redukcji wymiarów i opiera się na rozkładzie wartości osobliwych : dla każdej rzeczywistej macierzy (chociaż twierdzenie łatwo uogólnia się na złożone macierze) możemy napisaćN×pX
X=UDVT
gdzie o rozmiarze jest ortogonalny, jest macierzą diagonalną z nieujemnymi elementami diagonalnymi, a o wielkości jest ponownie ortogonalny. Dowody i algorytmy obliczania można znaleźć w: Golub, G. i Van Loan, C. (1983), Obliczenia Matrix , prasa John Hopkins University, Baltimore.UN×pDp×pUp×p
Twierdzenie Mercer'a jest kamieniem węgielnym dla wielu różnych metod ML: cienkie splajny płytowe, maszyny wektorów nośnych, oszacowanie Kriginga losowego procesu Gaussa itp. Zasadniczo jest jednym z dwóch twierdzeń stojących za tak zwaną sztuczką jądra . Niech będzie symmmetryczną funkcją ciągłą lub jądrem. jeśli jest dodatnim półfinałem, to przyjmuje ortonormalną podstawę funkcji własnych odpowiadającą nieujemnym wartościom własnym:K(x,y):[a,b]×[a,b]→RK
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
O znaczeniu tego twierdzenia dla teorii ML świadczy liczba odniesień, jakie otrzymuje w słynnych tekstach, takich jak na przykład Rasmussen i Williams o procesach Gaussa .
Odniesienia: J. Mercer, Funkcje typu dodatniego i ujemnego oraz ich związek z teorią równań całkowych. Transakcje filozoficzne Royal Society of London. Seria A, zawierająca dokumenty o charakterze matematycznym lub fizycznym, 209: 415-446, 1909
Prostsza prezentacja znajduje się również w Konradzie Jörgensie, operatorach całki liniowej , Pitman, Boston, 1982.
Drugim twierdzeniem, które wraz z twierdzeniem Mercer'a stanowi teoretyczne podstawy sztuczki jądra, jest twierdzenie reprezentujące . Załóżmy, że masz przykładową przestrzeń i symetryczne dodatnie jądro semidfinite . Także pozwala być RKHS związane z . Na koniec niech będzie próbką szkoleniową. Twierdzenie mówi, że spośród wszystkich funkcji , które wszystkie przyjmują nieskończoną reprezentację pod względem funkcji własnychXK:X×X→RHKKS={xi,yi}ni=1f∈HKKz powodu twierdzenia Mercer'a to, które minimalizuje ryzyko regulowane, zawsze ma skończoną reprezentację w podstawie utworzonej przez jądro oceniane w punktach treningowych, tj.n
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(twierdzenie jest ostatnią równością). Odniesienia: Wahba, G. 1990, Spline Models for Observational Data , SIAM, Philadelphia.
Uniwersalny przybliżenie twierdzenie zostało już cytowany przez użytkownika Tobias Windisch i jest znacznie mniej istotne dla uczenia maszynowego, niż jest do analizy funkcjonalnej, nawet jeśli nie może wydawać się więc na pierwszy rzut oka. Problem polega na tym, że twierdzenie mówi tylko, że taka sieć istnieje, ale:
- nie daje żadnej korelacji między rozmiarem ukrytej warstwy a pewną miarą złożoności funkcji docelowej , takiej jak na przykład Całkowita zmienność. Jeśli a wymagane dla stałego błędu rośnie wykładniczo z , to neuronalna pojedyncza warstwa ukryta sieci byłyby bezużyteczne.Nf(x)f(x)=sin(ωx):[0,2π]→[−1,1]Nϵω
- nie mówi, czy sieci można się nauczyć . Innymi słowy zakładamy, że biorąc pod uwagę i , wiemy, że rozmiar NN będzie zbliżony do z wymaganą tolerancją w hipersześcianie. Następnie, stosując zestawy szkoleniowe o rozmiarze i procedurę uczenia się, taką jak na przykład śmigło wsteczne, czy mamy jakąkolwiek gwarancję, że zwiększając możemy odzyskać ?F(x)fϵNfMMF
- wreszcie, co gorsza, nie mówi nic o błędzie prognozy sieci neuronowych. Co tak naprawdę zainteresowany jest oszacowanie błędu predykcji, przynajmniej uśrednione dla wszystkich zestawów szkoleniowych rozmiarze . Twierdzenie nie pomaga w tym względzie.M
Mniejszy problem z wersją tego twierdzenia Hornika polega na tym, że nie dotyczy to funkcji aktywacyjnych ReLU. Jednak Bartlett udowodnił później rozszerzoną wersję, która pokrywa tę lukę.
Do tej pory wydaje mi się, że wszystkie twierdzenia, które rozważałem, były dobrze znane każdemu. Czas na zabawę :-) Zobaczmy kilka twierdzeń o głębokim uczeniu się :
Założenia:
- głęboka sieć neuronowa (dla stałej , jest funkcją, która łączy wejścia sieci neuronowej z jej wyjściami) i utrata regularyzacji są sumami dodatnio jednorodne funkcje tego samego stopniaΦ(X,W)WΦW(X)Θ(W)
- funkcja stratności jest wypukła i raz można ją rozróżnić w , w zwartym zbiorzeL(Y,Φ(X,W)XS
Następnie:
- dowolne lokalne minimum dla takie, że podsieć ma zerowe wagi, jest globalnym minimum ( Twierdzenie 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
- powyżej krytycznego rozmiaru sieci, lokalne zejście zawsze będzie zbieżne do globalnego minimum po każdej inicjalizacji ( Twierdzenie 2 ).
Jest to bardzo interesujące: CNN wykonane tylko z warstw splotowych, ReLU, max-pooling, w pełni połączone ReLU i warstwy liniowe są dodatnio jednorodnymi funkcjami, a jeśli uwzględnimy funkcje aktywacji sigmoidalnej, nie jest to już prawdą, co może częściowo tłumaczyć wyższość wydajność w niektórych aplikacjach ReLU + max pooling w odniesieniu do sigmoidów. Co więcej, twierdzenia te obowiązują tylko wtedy, gdy jest dodatnio jednorodna w w tym samym stopniu co . faktem jest to, że lub , choć pozytywnie jednorodna, nie ma tego samego stopnia (stopieńΘWΦl1l2ΦΦ, w prostym przypadku CNN wspomnianym wcześniej, wzrasta wraz z liczbą warstw). Zamiast tego, bardziej nowoczesne metody regularyzacji, takie jak normalizacja partii i ścieżka-SGD, odpowiadają dodatnio jednorodnej funkcji regularyzacji o takim samym stopniu jak , a porzucenie, choć nie pasujące dokładnie do tego frameworka, wykazuje silne podobieństwo do niego. To może wyjaśniać, dlaczego, aby uzyskać wysoką dokładność z CNN, i nie są wystarczające, ale musimy zastosować wszelkiego rodzaju diabelskie sztuczki, takie jak rezygnacja i normalizacja partii! Zgodnie z moją najlepszą wiedzą jest to najbliższe wytłumaczenie skuteczności normalizacji partii, która poza tym jest bardzo niejasna, jak słusznie zauważył Al Rahimi w swoim wystąpieniu.Φl1l2
Kolejnym spostrzeżeniem, które niektórzy robią na podstawie Twierdzenia 1 , jest to, że mogłoby to wyjaśnić, dlaczego ReLU działa dobrze, nawet w przypadku problemu martwych neuronów . Zgodnie z tą intuicją fakt, że podczas treningu niektóre neurony ReLU „giną” (idą do aktywacji zerowej, a następnie nigdy się z niej nie regenerują, ponieważ dla gradient ReLU wynosi zero) jest „cechą, a nie błędem „, ponieważ jeśli osiągnęliśmy minimum i umarła pełna podsieć, to prawdopodobnie osiągnęliśmy globalne minimum (zgodnie z hipotezami Twierdzenia 1x<0). Być może czegoś mi brakuje, ale myślę, że ta interpretacja jest zbyt daleko idąca. Przede wszystkim podczas szkolenia ReLU mogą „umrzeć” na długo przed osiągnięciem lokalnego minimum. Po drugie, należy udowodnić, że kiedy jednostki ReLU „umierają”, zawsze robią to w pełnej podsieci: jedynym przypadkiem, gdy jest to trywialnie prawdziwe, jest tylko jedna ukryta warstwa, w którym to przypadku oczywiście każdy pojedynczy neuron jest podsieć. Ale ogólnie byłbym bardzo ostrożny, widząc „martwe neurony” jako dobrą rzecz.
Bibliografia:
B. Haeffele i R. Vidal, Globalna optymalizacja w szkoleniu w sieci neuronowej , Na konferencji IEEE nt. Wizji komputerowej i rozpoznawania wzorców, 2017.
B. Haeffele i R. Vidal. Globalna optymalizacja w rozkładzie na czynniki tensorowe, głębokie uczenie się i nie tylko , arXiv, abs / 1506.07540, 2015.
Klasyfikacja obrazów wymaga uczenia się reprezentacji, które są niezmienne (lub przynajmniej solidne, tj. Bardzo słabo wrażliwe) na różne transformacje, takie jak lokalizacja, poza, punkt widzenia, oświetlenie, ekspresja itp., Które są zwykle obecne na naturalnych obrazach, ale nie zawierają informacji do zadania klasyfikacyjnego. To samo dotyczy rozpoznawania mowy: zmiany wysokości, głośności, tempa, akcentu. itp. nie powinny prowadzić do zmiany klasyfikacji tego słowa. Operacje takie jak splot, maksymalna pula, średnia pula itp. Stosowane w sieciach CNN mają dokładnie ten cel, dlatego intuicyjnie oczekujemy, że będą działać w tych aplikacjach. Ale czy mamy twierdzenia na poparcie tej intuicji? Istnieje twierdzenie o niezmienności translacji pionowej, która, niezależnie od nazwy, nie ma nic wspólnego z tłumaczeniem w kierunku pionowym, ale jest to w zasadzie wynik, który mówi, że cechy wyuczone w kolejnych warstwach stają się coraz bardziej niezmienne w miarę wzrostu liczby warstw. Jest to sprzeczne ze starszym twierdzeniem o niezmienności translacji poziomej, które jednak dotyczy sieci rozpraszania, ale nie CNN. Twierdzenie to jest jednak bardzo techniczne:
- zakładamy, że (obraz wejściowy) jest całkowalny z kwadratemf
- załóżmy, że filtr dojeżdża do pracy z operatorem tłumaczenia , który mapuje obraz wejściowy na przetłumaczoną kopię samego siebie . Wyuczone jądro splotu (filtr) spełnia tę hipotezę.TtfTtf
- załóżmy, że wszystkie filtry, nieliniowości i pule w twojej sieci spełniają tak zwany słaby warunek dopuszczalności , który jest w zasadzie pewnego rodzaju słabymi warunkami regularności i ograniczenia. Warunki te są spełnione przez wyuczone jądro splotu (o ile na każdej warstwie wykonywana jest pewna operacja normalizacyjna), ReLU, sigmoid, tanh itp., Nieliniowości oraz przez średnią pulę, ale nie przez maksymalną pulę. Obejmuje więc niektóre (nie wszystkie) architektury CNN w świecie rzeczywistym.
- Załóżmy wreszcie, że każda warstwa ma współczynnik pulowania , tj. Pulowanie jest stosowane w każdej warstwie i skutecznie odrzuca informacje. Warunek wystarczyłby również dla słabszej wersji twierdzenia.nSn>1Sn≥1
Wskaż za pomocą wyjście warstwy CNN, gdy wejściem jest . Wreszcie:Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(potrójne słupki nie są błędem), co w zasadzie oznacza, że każda warstwa uczy się cech, które stają się coraz bardziej niezmienne, a na granicy nieskończenie głębokiej sieci mamy doskonale niezmienną architekturę. Ponieważ CNN mają skończoną liczbę warstw, nie są one niezmiennie niezmienne w tłumaczeniu, co jest dobrze znane praktykom.
Odniesienia: T. Wiatowski i H. Bolcskei, A Mathematical Theory of Deep Convolutional Neural Networks for Extraction , arXiv: 1512.06293v3 .
Podsumowując, liczne granice błędu uogólnienia głębokiej sieci neuronowej opartej na wymiarze Vapnika-Chervonkensisa lub złożoności Rademachera rosną wraz z liczbą parametrów (niektóre nawet wykładniczo), co oznacza, że nie potrafią wyjaśnić, dlaczego DNN działają tak dobrze w praktyce, nawet gdy liczba parametrów jest znacznie większa niż liczba próbek treningowych. W rzeczywistości teoria VC nie jest zbyt przydatna w głębokim uczeniu się.
I odwrotnie, niektóre wyniki z ubiegłego roku wiązały błąd uogólnienia klasyfikatora DNN z wielkością niezależną od głębokości i wielkości sieci neuronowej, ale zależną tylko od struktury zestawu treningowego i przestrzeni wejściowej. Zgodnie z kilkoma dość technicznymi założeniami dotyczącymi procedury uczenia się, zestawu treningowego i przestrzeni wejściowej, ale z bardzo małymi założeniami dotyczącymi DNN (w szczególności CNN są w pełni uwzględnione), to z prawdopodobieństwem co najmniej mamy1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
gdzie:
- GE jest błędem uogólnienia, zdefiniowanym jako różnica między oczekiwaną stratą (średnia utrata wyuczonego klasyfikatora we wszystkich możliwych punktach testowych) a utratą empiryczną (tylko błąd dobrego zestawu treningowego)
- Ny to liczba klas
- m jest rozmiarem zestawu treningowego
- Nγ jest liczbą obejmującą dane, wielkością związaną ze strukturą przestrzeni wejściowej i minimalnym odstępem między punktami różnych klas w zestawie treningowym. Odniesienie:
J. Sokolic, R. Giryes, G. Sapiro i M. Rodrigues. Błąd uogólnienia niezmiennych klasyfikatorów . W AISTATS, 2017