W przypadku modelu liniowego termin skurczu wynosi zawsze .P ( β )
Jaki jest powód, dla którego nie zmniejszamy terminu odchylenia (przechwytywania) ? Czy powinniśmy zmniejszyć termin obciążenia w modelach sieci neuronowej?
W przypadku modelu liniowego termin skurczu wynosi zawsze .P ( β )
Jaki jest powód, dla którego nie zmniejszamy terminu odchylenia (przechwytywania) ? Czy powinniśmy zmniejszyć termin obciążenia w modelach sieci neuronowej?
Odpowiedzi:
Elementy uczenia statystycznego Hastie i in. określenie regresji grzbiet następująco (rozdział 3.4.1, równanie tzn. jednoznacznie wyłącz pojęcie przechwytywania β 0 z kary kalenicowej.
Potem piszą:
[...] zauważ, że punkt przecięcia został pominięty w okresie kary. Kara za przechwycenie spowodowałaby, że procedura zależałaby od pochodzenia wybranego dla Y ; to znaczy, dodanie stałej C do każdego celu Y i nie będą po prostu spowodować przesunięcie przewidywania w tej samej wysokości , c .
W istocie, w obecności perspektywie przechwytujący dodanie do wszystkich Y i po prostu spowodować p 0 wzrasta o C , jak również i odpowiednio wszystkie przewidywane wartości y i zwiększy także C . Nie jest to prawdą, jeśli punkt przecięcia jest karany: β 0 będzie musiało wzrosnąć o mniej niż c .
W rzeczywistości istnieje kilka przyjemnych i wygodnych właściwości regresji liniowej, które zależą od tego, czy istnieje odpowiedni (niezenalizowany) termin przechwytujący. Na przykład średnia wartość i średniej wartości y i są takie same i w związku z tym () kwadrat stwardnienie Współczynnik korelacji R wynosi współczynnik korelacji R 2 : ( R ) 2 = cos 2 ( Y , Y ) = ‖ Y ‖ 2patrz np tego gwintu do wyjaśnienia:Interpretacja geometryczna wielokrotnego Współczynnik korelacjiRi współczynnik korelacjiR2.
Karanie przechwytywania doprowadziłoby do tego, że to wszystko nie byłoby już prawdą.
Przypomnij sobie cel skurczu lub regularyzacji. Ma to na celu niedopuszczenie do tego, aby algorytm uczenia się nadpisywał dane treningowe lub równoważnie - zapobiegał wybieraniu dowolnie dużych wartości parametrów. Jest to bardziej prawdopodobne w przypadku zestawów danych zawierających więcej niż kilka przykładów szkolenia w obecności hałasu (bardzo interesująca dyskusja na temat obecności hałasu i jego wpływu jest omawiana w „Uczeniu się z danych” Yasera Abu-Mustafa). Model wyuczony na hałaśliwych danych bez regularyzacji prawdopodobnie będzie działał słabo w niektórych niewidzialnych punktach danych.
Mając to na uwadze, wyobraź sobie, że masz punkty danych 2D, które chcesz podzielić na dwie klasy. Po ustaleniu wszystkich parametrów polaryzacji z wyjątkiem, zmiana terminu polaryzacji po prostu przesunie granicę w górę lub w dół. Możesz to uogólnić na przestrzeń o wyższych wymiarach.
Algorytm uczenia się nie może ustawić dowolnie dużych wartości dla terminu polaryzacji, ponieważ spowoduje to potencjalnie wartość straty brutto (model nie będzie pasował do danych treningowych). Innymi słowy, biorąc pod uwagę pewien zestaw treningowy, ty (lub algorytm uczenia się) nie możesz przesunąć samolotu arbitralnie daleko od prawdziwego.
Tak więc nie ma powodu, aby zmniejszać termin uprzedzenia, algorytm uczenia się znajdzie dobry bez ryzyka nadmiernego dopasowania.
Ostatnia uwaga: w pewnym artykule widziałem, że pracując w wysoko wymiarowych przestrzeniach do klasyfikacji, nie ma ścisłej potrzeby modelowania pojęcia błędu wstępnego. Może to działać w przypadku danych rozdzielanych liniowo, ponieważ po dodaniu większej liczby wymiarów istnieje więcej możliwości oddzielenia dwóch klas.
Termin przechwytywania absolutnie nie jest odporny na skurcz. Ogólne sformułowanie „skurczu” (tj. Regularyzacji) umieszcza termin regularyzacji w funkcji straty, np .:
Teraz nie mogę mówić o regularyzacji sieci neuronowych. Jest możliwe, że dla sieci neuronowych chcesz uniknąć skurczenia się odchylenia polaryzacji lub w inny sposób zaprojektować funkcję straty regulowanej inaczej niż opisana powyżej formuła. Po prostu nie wiem. Ale mocno podejrzewam, że wagi i warunki uprzedzeń są razem regularyzowane.
Nie jestem pewien, czy powyższa odpowiedź Davida Marksa jest słuszna; według Andrew Ng, zgodnie z konwencją, współczynnik polaryzacji / przechwytywania zazwyczaj nie jest regulowany w regresji liniowej, a w każdym razie to, czy jest regularyzowany czy nie, nie robi istotnej różnicy.