Przybliżenie funkcji uniwersalnej

Dzięki uniwersalnemu twierdzeniu o aproksymacji wiadomo, że sieć neuronowa z nawet jedną ukrytą warstwą i dowolną funkcją aktywacji może aproksymować dowolną funkcję ciągłą.

Jakie są inne modele, które są również uniwersalnymi aproksymatorami funkcji

machine-learning function approximation

— Optować
źródło

Dołączyłem do tej witryny, aby głosować na to pytanie i niektóre odpowiedzi.

— Prasad Raghavendra

Jest to szeroko omawiane w literaturze statystycznej pod tematem regresji. Dwa standardowe odniesienia tutaj to książka Wassermana „cała statystyka nieparametryczna” i „wprowadzenie Csybakowa do estymacji nieparametrycznej”. Opowiem krótko o niektórych standardowych rzeczach i spróbuję podać wskaźniki poza statystykami (jest to częsty temat, a różne dziedziny mają różne kultury: udowodnić różne rodzaje twierdzeń, przyjąć inne założenia).

(Regresory jądra, czasami nazywane estymatorem Nadaraya-Watson.) Tutaj piszemy funkcję w dowolnym momencie jako ważoną kombinację pobliskich wartości. Mówiąc bardziej konkretnie, ponieważ jest to w literaturze statystycznej, zazwyczaj przypuszczasz, że masz kilka przykładów zaczerpniętych z jakiegoś rozkładu i naprawisz niektóre jądro (możesz myśleć o tym jako Gaussa, ale zerową średnią co najważniejsze) i zapisu $((x_i,f(x_i)))_{i=1}^n$ $K$ gdzie(jesteś bardziej wrażliwy na małe odległości wraz zewzrostem). Gwarancją jest to, że jakoprobilistyczne kryterium zniekształcenia (oczekiwanie sup-normy, wysokie prawdopodobieństwo, cokolwiek) spada do zera. (Nie ma znaczenia co
$\hat{fa} (x) : = \sum_{ja} fa (x_{ja}) (\frac{K. ({do}_{n} (x - x_{ja}))}{\sum_{jot} K. ({do}_{n} (x - x_{jot}))}),$ $\hat f(x) := \sum_i f(x_i) \left(\frac{ K(c_n(x-x_i)) }{ \sum_j K(c_n(x-x_j))}\right),$ $c_n\to\infty$ $n$ $n\to\infty$ ma większego znaczenia, jak wygląda - ważniejsze jest, jak wybierzesz .) $K$ $c_n$
(Metody podstawowe.) Podobną rzeczą jest wybranie rodziny „funkcji bazowych”, takich jak Wavelets lub częściowe funkcje liniowe, ale tak naprawdę wszystko, co tworzy (prawdopodobnie nadmierną) podstawę przestrzeni wektorowej , i określenie ważonej liniowej kombinacja skalowanych i przetłumaczonych elementów. Techniki tutaj różnią się drastycznie od (1.); zamiast wybierać podstawowe funkcje wyśrodkowane w punktach danych, ostrożnie obliczasz wagę i położenie każdej z nich, aby zminimalizować niektóre kryterium zniekształceń. (Zazwyczaj ich ilość jest ustalana a priori.) Jednym z podejść jest „pogoń za podstawą”, w której łapczywie dodajesz nowe funkcje, próbując zminimalizować jakiś błąd aproksymacji między $L^2$ i $\hat f$ $f$ . Aby zrozumieć tutaj różnorodność podejść, zgrabnym tekstem jest „jednolite zbliżenie funkcji Rahimiego i Rechta z losowymi zasadami”. Być może powinienem powiedzieć, że pradziadem z nich wszystkich jest rozszerzenie Fouriera; jest wiele dobrych materiałów na ten temat w książce Mallata o Wavelets.
(Metody drzewa.) Innym sposobem jest spojrzenie na funkcję jak na drzewo; na każdym poziomie pracujesz z jakąś partycją domeny i zwracasz na przykład średni punkt. (Każde przycinanie drzewa daje również podział.) W granicach dokładności tej partycji nie będzie już dyskretyzować funkcji, a ty dokładnie ją zrekonstruowałeś. Jak najlepiej wybrać tę partycję, to trudny problem. (Możesz to zrobić w Google w „drzewie regresji”).
(Metody wielomianowe; patrz także splajny i inne techniki interpolacji). Z twierdzenia Taylora wiesz, że możesz dowolnie zbliżyć się do dobrze zachowanych funkcji. Może się to wydawać bardzo podstawowym podejściem (tj. Wystarczy użyć wielomianu interpolującego Lagrange'a), ale tam, gdzie robi się ciekawie, decyduje się, którewskazuje na interpolację. Zostało to szczegółowo zbadane w kontekście integracji numerycznej; niesamowitą matematykę można znaleźć w temacie „kwadratura Clenshawa-Curtisa” i „kwadratura Gaussa”. Wrzucam to tutaj, ponieważ rodzaje założeń i gwarancji są tak drastycznie różne niż to, co pojawia się powyżej. Lubię to pole, ale te metody bardzo cierpią z powodu przekleństwa wymiaru, przynajmniej myślę, że dlatego są one mniej dyskutowane niż kiedyś (jeśli robisz integrację numeryczną z matematyką, myślę, że ma ona kwadraturę dla domen jednowymiarowych, ale techniki próbkowania domen wielowymiarowych).

Biorąc pod uwagę różne ograniczenia dotyczące twojej klasy funkcji, możesz utworzyć powyższą instancję, aby uzyskać wiele innych często używanych scenariuszy. Na przykład, w przypadku funkcji o wartości logicznej próg (1) będzie wyglądał bardzo podobnie do estymatora najbliższego sąsiada lub SVM z jakimś lokalnym jądrem (gaussowskim). Wiele z powyższych rzeczy cierpi z powodu przekleństwa wymiaru (granice wykazują wykładniczą zależność od wymiaru). W uczeniu maszynowym można obejść ten problem albo poprzez wyraźne ograniczenie swojej klasy do jakiejś rodziny (tj. „Metody parametryczne), albo przez domniemane ograniczenie, zwykle coś związanego z jakością przybliżeń do złożoności funkcji celu (tj. Analogiem słabe założenie dotyczące uczenia się podczas wzmacniania).

$f:\mathbb{R}^d \to \mathbb{R}$

fa (x) = \sum_{jot = 0}^{2) re} h_{jot} (\sum_{ja = 1}^{re} {sol}_{jot, ja} (x_{ja})),

$f(x) = \sum_{j=0}^{2d}h_j\left(\sum_{i=1}^d g_{j,i}(x_i)\right),$

g_{j, i} : R \to R

$g_{j,i} : \mathbb{R}\to\mathbb{R}$ i

h_{j} : R \to R

$h_j:\mathbb{R}\to\mathbb{R}$

g

$g$

h

$h$

Θ (d^{2})

$\Theta(d^2)$

(Pytałeś tylko o klasy funkcji, ale pomyślałem, że będziesz zainteresowany metodami ... jeśli nie ... oops)

— matus
źródło

„Od 1957 roku!”, Czy to wykładniczy wykład z 1957 roku, a więc z przyszłości ?! :)

— nbro