Czy istnieją badania, które badają przerwanie leczenia w porównaniu z innymi regularyzacjami?

9

Czy opublikowano jakieś prace, które pokazują różnice w metodach regularyzacji sieci neuronowych, najlepiej w różnych domenach (lub przynajmniej w różnych zestawach danych)?

Pytam, ponieważ obecnie mam wrażenie, że większość ludzi wydaje się używać tylko porzucenia w celu uregulowania widzenia komputerowego. Chciałbym sprawdzić, czy istnieje powód (nie) zastosowania różnych sposobów regularyzacji.

— Martin Thoma
źródło

3

Dwa punkty:

Przerwanie jest również zwykle porównywane z zespołami sieci neuronowych. Wydaje się, że ma on pewne zalety w zakresie wydajności szkolenia i uśredniania kilku sieci neuronowych.
Wypadanie jest łatwiejsze do skalibrowania niż regularyzacji. Jest tylko jeden hiperparametr, którym jest wskaźnik porzucania, a ludzie często używają 0,5 podczas treningu (a następnie 1,0 po ocenie kursu :)), patrz np. Ten przykład TensorFlow .

W każdym razie jestem trochę sceptyczny wobec badań empirycznych sieci neuronowych. Jest zbyt wiele hiperparametrów, aby je dostroić, od topologii sieci, przez procedurę optymalizacji spadku gradientu, po funkcje aktywacji i cokolwiek testujesz, jak regularyzacja. Następnie cała sprawa jest stochastyczna i zwykle wzrost wydajności jest tak mały, że trudno jest statystycznie sprawdzić różnice. Wielu autorów nawet nie zawraca sobie głowy przeprowadzaniem testów statystycznych. Po prostu uśredniają wzajemną walidację i deklarują, że model, który uzyskał najwyższy przyrost punktu dziesiętnego, został zwycięzcą.

Może się okazać, że badanie promujące porzucenie nauki jest sprzeczne z kolejną promocją regularyzacji.

Myślę, że wszystko sprowadza się do preferencji estetycznych. Porzucenie IMHO brzmi bardziej biologicznie prawdopodobne niż regularyzacja. Wydaje się również, że łatwiej skalibrować. Tak więc osobiście wolę to podczas korzystania z frameworka takiego jak TensorFlow. Jeśli będziemy musieli korzystać z własnej sieci neuronowej, co często robimy, zastosujemy regularyzację, ponieważ łatwiej było ją wdrożyć.

— Ricardo Cruz
źródło

0

Zdecydowanie. Artykuł od samego Stwórcy, Geoffreya Hintona. https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf przeczytaj. Ale zachęcam cię, abyś sam zobaczył różnicę we wdrażaniu.

— Amanuel Negash
źródło

2

Artykuł nie porównuje wyraźnie różnych podejść do regularyzacji, z wyjątkiem wykazania rezygnacji jako poprawy najnowszych wyników w tym czasie (poprzednie wyniki najprawdopodobniej korzystały z innych form regularyzacji, ale nie zostały one wymienione). Wspomina także o maksymalnych ograniczeniach masy jako skutecznym dodatkowym regulatorze porzucania.

— Neil Slater,