Mówi „skuteczna złożoność sieci”. W rzeczywistości odnosi się do wielkości wag sieci. Można to zrozumieć w kategoriach zasady minimalnej długości opisu . Ale zanim przejdę do tego, intuicja jest taka, że im większe wagi, tym więcej różnych funkcji może pomieścić twoja sieć, a tym samym wyższy stopień swobody (i efektywnej złożoności).
W tym rozdziale mówi o regularyzacji, która jest techniką skutecznego zmniejszania ryzyka nadmiernego dopasowania, poprzez wymaganie, aby ciężary były jak najmniejsze. Ogólnie,
p(D|w)=∏np(tn|xn,w)=∏nexp(β2[tn−y(xn,w)]2)/ZD(β)
wZD(β)
p(w)=exp(−α||w||22)/ZW(α)
argmaxwp(w|D)
p(w|D)=p(D|w)p(w)
Zw
argminw∑nβ2[tn−y(xn,w)]2+α2∑iw2i
Mówiąc bardziej ogólnie, szacunek MAP jest równoważny z następującymi,
wMAP=argminw−log2P(D|w)−log2(w)
Prawa strona wyrażenia może być interpretowana jako liczba bitów potrzebna do opisania twojego klasyfikatora. Pierwszy termin reprezentuje liczbę bitów potrzebną do zakodowania błędów twojej sieci w danych treningowych. Drugi oznacza liczbę bitów potrzebną do zakodowania wag.
Oszacowanie MAP jest zatem równoważne wybraniu najbardziej zwartej reprezentacji. Innymi słowy, szukasz zestawu wag, które uwzględniają dane treningu tak wiernie, jak to możliwe, które mogą być wyrażone przy użyciu najmniejszej liczby bitów.
Zauważ, że jest to kolejna forma problemu błędu / wariancji: im większe wagi, tym niższy pierwszy termin, ponieważ sieć może lepiej dopasować dane treningowe (przeregulowanie). Ale jednocześnie wyższa złożoność wag. Im mniejsze wagi, tym mniejsza złożoność sieci, ale im wyższy jest błąd (błąd). Im większa liczba bitów konieczna do zakodowania błędów w sieci.
Mam nadzieję, że daje to wystarczająco dobre wyobrażenie o tym, o czym on mówi.
PS dodając dłuższy argument do toczącej się dyskusji Być może źle cię zrozumiałem. Pozwól, że postaram się wyjaśnić po raz ostatni.
Uprzednio odważniki oznaczają założenia, które przyjmujemy na temat funkcji, którą chcesz dopasować. Im większy wcześniejszy (tj. Wagi), tym szerszy Gaussa, tzn. Im więcej możliwych konfiguracji, które uważa się za pasujące do sieci.
Rozważmy przypadek regresji (jak w artykule, o którym wspomniałem). Niski błąd generalizacji oznacza, że sieć jest w stanie odwzorować niewidzialne próbki bardzo blisko rzeczywistych wartości. Jeśli dopasowujesz linię prostą, wystarczy wielomian pierwszego rzędu (mała złożoność). Teraz możesz również dopasować dane do wielomianu wyższego rzędu (niech współczynniki wyższego rzędu będą różne od zera). Złożoność sieci jest większa, ponieważ pozwalasz na oscylacje, dla bardziej złożonej krzywej. Niemniej jednak, jeśli współczynniki odpowiadające warunkom wyższego rzędu są wystarczająco niskie, sieć może bardzo dobrze przybliżyć linię prostą, co skutkuje dobrym uogólnieniem.
Tak więc sednem MDL jest zmniejszenie twoich wag tak długo, jak to możliwe, o ile błąd uogólnienia może zostać zminimalizowany.
Na koniec, cytuję: „Wciąż kłopotliwy jest argument, że w miarę jak model zaczyna się dopasowywać, jego możliwości modelowania innych funkcji wzrosną. Myślę, że jest zupełnie odwrotnie, ponieważ model, który się przewyższa, nie może zostać uogólniony, aby zastosować go do nowego Informacja.". Tak, może modelować INNE, bardziej złożone funkcje, ale nie będzie w stanie poprawnie modelować dostępnej funkcji. Na rycinie 5.12 w książce błąd najpierw maleje wraz ze wzrostem masy (redukcja odchylenia). Do pewnego momentu, gdy zacznie ponownie rosnąć (zmniejszenie uogólnienia, przeregulowanie).