Pomysł zastosowania filtrów w celu zidentyfikowania krawędzi jest całkiem fajnym pomysłem.
Na przykład możesz zrobić zdjęcie 7. Z niektórymi filtrami możesz uzyskać przekształcone obrazy, które podkreślają różne cechy oryginalnego obrazu. Oryginalny 7:
może być postrzegany przez sieć jako:
Zauważ, jak każdy obraz wyodrębnił inną krawędź oryginału 7.
To wszystko świetnie, ale powiedzmy, że następna warstwa w sieci to warstwa Max Pooling.
Moje pytanie brzmi ogólnie: czy to nie wydaje się trochę przesadzone? Po prostu byliśmy bardzo ostrożni i celowi w identyfikowaniu krawędzi za pomocą filtrów - teraz już nas to nie obchodzi, ponieważ do diabła wybiliśmy wartości pikseli! Popraw mnie, jeśli się mylę, ale zmieniliśmy z 25 X 25 na 2 X 2! Dlaczego więc nie pójść prosto do Maxa Poolinga, czy nie skończymy z tym samym?
Jako rozszerzenie mojego pytania nie mogę przestać się zastanawiać, co by się stało, gdyby przypadkiem każdy z 4 kwadratów miał piksel o tej samej wartości maksymalnej. Z pewnością nie jest to rzadki przypadek, prawda? Nagle wszystkie obrazy treningowe wyglądają dokładnie tak samo.
The pooling operation provides a form of translation invariance
?