W niektórych samouczkach stwierdziłem, że inicjalizacja wagi „Xaviera” (papier: Zrozumienie trudności w uczeniu głębokich sieci neuronowych ze sprzężeniem zwrotnym ) jest skutecznym sposobem inicjalizacji wag sieci neuronowych.
W przypadku w pełni połączonych warstw w tych samouczkach obowiązywała zasada:
gdzie to wariancja wag dla warstwy, zainicjowana rozkładem normalnym, a , to ilość neuronów w warstwie rodzicielskiej i w bieżącej warstwie.
Czy istnieją podobne ogólne zasady dotyczące warstw splotowych?
Usiłuję wymyślić, co byłoby najlepsze, aby zainicjować wagi warstwy splotowej. Np. W warstwie, w której kształt ma kształt (5, 5, 3, 8)
, więc rozmiar jądra to 5x5
, filtrowanie trzech kanałów wejściowych (wejście RGB) i tworzenie 8
map cech ... czy można by uznać 3
za ilość neuronów wejściowych? A może 75 = 5*5*3
dlatego, że dane wejściowe to 5x5
łatki dla każdego kanału kolorów?
Zaakceptowałbym obie, konkretną odpowiedź wyjaśniającą problem lub bardziej „ogólną” odpowiedź wyjaśniającą ogólny proces znajdowania właściwej inicjalizacji wag i najlepiej łączenia źródeł.