Oto oferta:
Technicznie napisałeś prawdziwe zdania (oba modele mogą przybliżyć dowolną funkcję „niezbyt szaloną” przy wystarczających parametrach), ale zdania te nigdzie cię nie prowadzą!
Dlaczego? Cóż, spójrz bliżej na uniwersalną teorię aproksymacji lub inny formalny dowód, że sieć neuronowa może obliczyć dowolny f (x), jeśli istnieją wystarczające neurony.
Wszystkie tego rodzaju dowody, które widziałem, wykorzystują tylko jedną ukrytą warstwę.
Rzuć okiem tutaj http://neuralnetworksanddeeplearning.com/chap5.html dla pewnej intuicji. Istnieją prace pokazujące, że w pewnym sensie liczba potrzebnych neuronów rośnie wykładniczo, jeśli używasz tylko jednej warstwy.
Tak więc, choć teoretycznie masz rację, w praktyce nie masz nieskończonej ilości pamięci, więc tak naprawdę nie chcesz trenować sieci 2 ^ 1000 neuronów, prawda? Nawet jeśli miałeś nieskończoną ilość pamięci, ta sieć na pewno się przepełni.
Moim zdaniem najważniejszym punktem ML jest punkt praktyczny! Rozwińmy trochę na ten temat. Prawdziwym dużym problemem tutaj nie jest tylko to, jak wielomiany bardzo szybko zwiększają / zmniejszają się poza zestawem treningowym. Ani trochę. Jako szybki przykład piksel dowolnego obrazu mieści się w bardzo określonym zakresie ([0,255] dla każdego koloru RGB), dzięki czemu możesz mieć pewność, że każda nowa próbka znajdzie się w zakresie wartości twojego zestawu treningowego. Nie. Najważniejsze jest to, że porównanie to nie jest przydatne na początek (!).
Sugeruję, abyś trochę poeksperymentował z MNIST i spróbował zobaczyć rzeczywiste wyniki, które możesz wymyślić, używając tylko jednej warstwy.
Praktyczne sieci wykorzystują znacznie więcej niż jedną ukrytą warstwę, czasem dziesiątki (cóż, Resnet nawet więcej ...) warstw. Z powodu. Ten powód nie został udowodniony i ogólnie wybór architektury sieci neuronowej jest gorącym obszarem badań. Innymi słowy, chociaż wciąż musimy wiedzieć więcej, oba modele, które porównałeś (regresja liniowa i NN z tylko jedną ukrytą warstwą), dla wielu zestawów danych, nie są w ogóle przydatne!
Nawiasem mówiąc, na wypadek, gdybyś dostał się do ML, istnieje inne bezużyteczne twierdzenie, które w rzeczywistości jest obecnym „obszarem badań” - PAC (prawdopodobnie w przybliżeniu poprawny) / wymiar VC. Rozbuduję to jako bonus:
Jeśli uniwersalne przybliżenie zasadniczo stwierdza, że biorąc pod uwagę nieskończoną liczbę neuronów, możemy przybliżyć dowolną funkcję (dziękuję bardzo?), W praktyce mówi PAC, biorąc pod uwagę (praktycznie!) Nieskończoną liczbę oznakowanych przykładów, które możemy zbliżyć tak blisko, jak to możliwe chcą najlepszej hipotezy w naszym modelu. To było absolutnie zabawne, kiedy obliczyłem rzeczywistą liczbę przykładów potrzebnych do tego, aby praktyczna sieć mieściła się w pewnym praktycznym pożądanym poziomie błędu z pewnym prawdopodobieństwem w przybliżeniu :) To było więcej niż liczba elektronów we wszechświecie. PS, aby go zwiększyć, zakłada również, że próbki są IID (co nigdy nie jest prawdą!).