Jak dokładnie działa DropOut z warstwami splotowymi?

Dropout ( papier , wyjaśnienie ) ustawia moc wyjściową niektórych neuronów na zero. W przypadku MLP możesz mieć następującą architekturę zestawu danych kwiatów Iris :

4 : 50 (tanh) : dropout (0.5) : 20 (tanh) : 3 (softmax)

Działa to tak:

s o f t m a x (W_{3} \cdot \tanh (W_{2} \cdot mask (D, \tanh (W_{1} \cdot i n p u t_v e c t o r)))

$softmax(W_3 \cdot \tanh(W_2 \cdot \text{mask}(D, \tanh(W_1 \cdot input\_vector)))$

z , , , , (ignorowanie uprzedzeń ze względu na uproszczenie). $input\_vector \in \mathbb{R}^{4 \times 1}$ $W_1 \in \mathbb{R}^{50 \times 4}$ $D \in \{0, 1\}^{50 \times 1}$ $W_2 \in \mathbb{R}^{20 \times 50}$ $W_3 \in \mathbb{R}^{20 \times 3}$

Przy oraz $D = (d)_{ij}$

d_{i j} \sim B (1, p = 0.5)

$d_{ij} \sim B(1, p=0.5)$

gdzie działanie zwielokrotnia punktowo przez (patrz iloczyn Hadamarda ). $\text{mask}(D, M)$ $D$ $M$

Stąd tylko próbkujemy macierz każdym razem, a zatem wypadanie staje się pomnożeniem węzła przez 0. $D$

Ale w przypadku CNN nie jest dla mnie jasne, co dokładnie zostało porzucone. Widzę trzy możliwości:

Usuwanie kompletnych map obiektów (stąd jądro)
Usunięcie jednego elementu jądra (zastąpienie elementu jądra przez 0)
Upuszczenie jednego elementu mapy obiektów

Dodaj odniesienie / cytat do swojej odpowiedzi.

Moje myśli

Myślę, że Lasagne ma (3) (patrz kod ). Może to być najprostszy do wdrożenia. Jednak bliżej pierwotnego pomysłu może być (1).

Wygląda podobnie do Caffe (patrz kod ). W przypadku tensorflow użytkownik musi zdecydować ( kod - nie jestem pewien, co się stanie, gdy noise_shape=Nonezostanie przekazany).

Jak powinno być

(2) i (3) nie mają większego sensu, ponieważ spowodowałoby to dodanie przez sieć niezmienności do pozycji przestrzennych, co prawdopodobnie nie jest pożądane. Stąd (1) jest jedynym wariantem, który ma sens. Ale nie jestem pewien, co się stanie, jeśli użyjesz domyślnej implementacji.

dropout

— Martin Thoma
źródło

Zadałem pytanie również w grupie użytkowników Lasagne .

— Martin Thoma,

Znajomy zauważył, że (2) i (3) może nie być dobrym pomysłem, ponieważ może zmusić sieć do rozprzestrzeniania informacji przestrzennie.

— Martin Thoma

$l$ $W^{(l+1)}$

Aby uzyskać więcej informacji, myślę, że sekcja 3 tego dokumentu może ci pomóc: Max-pooling & Convolutional rezygnacja . W szczególności 3.2.

Podczas testu używasz wszystkich węzłów sieci, ale z wagami filtra skalowanymi według prawdopodobieństwa zatrzymania, jak wyjaśniono w artykule.

Uściślij lub popraw moją odpowiedź.

Mam nadzieję, że to trochę pomoże.

— Leonard Aukea
źródło