To pytanie sprowadza się do „jak dokładnie działają warstwy splotu .
Załóżmy, że mam obraz w skali szarości . Obraz ma jeden kanał. W pierwszej warstwie stosuję splot 3 × 3 z filtrami k 1 i wypełnieniem. Następnie mam kolejną warstwę splotu z 5 x 5 zwojami i filtrami k 2 . Ile mam map obiektów?
Splot typu 1
Pierwsza warstwa zostanie wykonana. Następnie mam mapy funkcji (po jednej dla każdego filtra). Każdy z nich ma rozmiar n × m . Każdy piksel został utworzony przez pobranie 3 ⋅ 3 = 9 pikseli z wypełnionego obrazu wejściowego.
Następnie nakładana jest druga warstwa. Każdy filtr jest stosowany osobno do każdej mapy obiektów . Powoduje to utworzenie map obiektów dla każdej mapy obiektów k 1 . Istnieją więc mapy obiektów k 1 × k 2 po drugiej warstwie. Każdy piksel każdego z nowych map fabularnych został stworzony poprzez 5 ⋅ 5 = 25 „piksele” z wyściełanym fabularnego mapie sprzed.
System musi nauczyć się parametrów parametrów.
Splot typu 2.1
Tak jak poprzednio: pierwsza warstwa zostanie wykonana. Następnie mam mapy funkcji (po jednej dla każdego filtra). Każdy z nich ma rozmiar n × m . Każdy piksel został utworzony przez pobranie 3 ⋅ 3 = 9 pikseli z wypełnionego obrazu wejściowego.
W przeciwieństwie do wcześniejszych: następnie nakładana jest druga warstwa. Każdy filtr jest stosowany do tego samego regionu, ale wszystkie mapy obiektów wcześniej. Powoduje to w sumie mapy funkcji po wykonaniu drugiej warstwy. Każdy piksel każdej z nowych map obiektów został utworzony przez pobranie k 2 ⋅ 5 ⋅ 5 = 25 ⋅ k 2 „pikseli” wcześniej wypełnionych map obiektów.
System musi nauczyć się parametrów parametrów.
Splot typu 2.2
Pytanie
- Czy zazwyczaj stosuje się typ 1 lub typ 2?
- Który typ jest używany w Alexnet ?
- Który typ jest używany w GoogLeNet ?
- Jeśli powiesz typ 2: wyjaśnij kwadratowy koszt („Na przykład w sieci głębokiego widzenia, jeśli połączone są dwie warstwy splotowe, każdy równomierny wzrost liczby ich filtrów powoduje kwadratowy wzrost obliczeń”)
W przypadku wszystkich odpowiedzi proszę podać dowody (dokumenty, podręczniki, dokumentacja ram), że odpowiedź jest poprawna.
Dodatkowe pytanie 1
Czy pulowanie jest stosowane zawsze tylko dla mapy obiektów, czy też jest wykonywane na wielu mapach obiektów?
Dodatkowe pytanie 2
Moje badania
- Przeczytałem dwa artykuły z góry, ale nadal nie jestem pewien, co zostało wykorzystane.
- Przeczytałem dokumentację lasagne
- Przeczytałem dokumentację theano
- Przeczytałem odpowiedzi na temat Zrozumienie splotowych sieci neuronowych (bez podążania za wszystkimi linkami)
- Przeczytałem Convolutional Neural Networks (LeNet) . Zwłaszcza rysunek 1 daje mi względną pewność, że Typ 2.1 jest właściwy. Pasowałoby to również do komentarza „koszt kwadratowy” w GoogLe Net i do niektórych praktycznych doświadczeń z Caffee.