Zgodnie z tym samouczkiem na temat głębokiego uczenia się , odchudzanie (regularyzacja) zwykle nie jest stosowane do terminów stronniczości b dlaczego?
Jakie jest za tym znaczenie (intuicja)?
Zgodnie z tym samouczkiem na temat głębokiego uczenia się , odchudzanie (regularyzacja) zwykle nie jest stosowane do terminów stronniczości b dlaczego?
Jakie jest za tym znaczenie (intuicja)?
Odpowiedzi:
Przeregulowanie zwykle wymaga, aby dane wyjściowe modelu były wrażliwe na niewielkie zmiany danych wejściowych (tj. Aby dokładnie interpolować wartości docelowe, zwykle wymagana jest duża krzywizna w dopasowanej funkcji). Parametry odchylenia nie wpływają na krzywiznę modelu, więc zwykle nie ma sensu ich regulowania.
Motywacja stojąca za L2 (lub L1) polega na tym, że ograniczając ciężary, ograniczając sieć, mniej prawdopodobne jest przeregulowanie. Ograniczanie wag odchyleń nie ma sensu, ponieważ odchylenia są ustalone (np. B = 1), a zatem działają jak przechwyty neuronów, co ma sens, aby uzyskać większą elastyczność.
Dodałbym, że pojęcie błędu często jest inicjowane 1
raczej ze środka, a nie z 0
, więc możemy chcieć go uregulować w taki sposób, aby nie oddalić się zbytnio od stałej wartości, 1
takiej jak robienie, 1/2*(bias-1)^2
a nie 1/2*(bias)^2
.
Być może zastąpienie -1
części przez odjęcie od średniej tendencyjności może pomóc, może średnia na warstwę lub ogólna. Ale to tylko hipoteza (o średniej odejmowaniu).
Wszystko zależy również od funkcji aktywacji. Np .: sigmoidy mogą być złe w przypadku zanikania gradientów, jeśli odchylenia są regulowane do wysokich stałych przesunięć.
W samouczku jest napisane: „zastosowanie rozkładu masy do jednostek odchylenia zwykle robi tylko niewielką różnicę w końcowej sieci”, więc jeśli to nie pomoże, możesz przestać to robić, aby wyeliminować jeden hiperparametr. Jeśli uważasz, że uregulowanie przesunięcia pomogłoby w konfiguracji, to zweryfikuj je krzyżowo; nie ma nic złego w próbie.