Wprowadzenie do tła

W splotowej sieci neuronowej zwykle mamy ogólną strukturę / przepływ, który wygląda następująco:

obraz wejściowy (tj. wektor 2D x)

(Pierwsza warstwa konwergencji (konw. 1) zaczyna się tutaj ...)

zwinąć zestaw filtrów ( w1) wzdłuż obrazu 2D (tzn. wykonać iloczyny z1 = w1*x + b1iloczynu iloczynu), gdzie z1jest 3D, a b1jest stronniczy.
zastosuj funkcję aktywacji (np. ReLu), aby utworzyć z1nieliniową (np. a1 = ReLu(z1)), gdzie a1jest 3D.

(2. warstwa konwergentna (konw. 2) zaczyna się tutaj ...)

zbierz zestaw filtrów wzdłuż nowo obliczonych aktywacji (tzn. wykonaj z2 = w2*a1 + b2pomnożenie iloczynu iloczynu), gdzie z2jest 3D, a b2jest stronnicze.
zastosuj funkcję aktywacji (np. ReLu), aby utworzyć z2nieliniową (np. a2 = ReLu(z2)), gdzie a2jest 3D.

Pytanie

Definicja pojęcia „mapa obiektów” wydaje się różnić w zależności od literatury. Konkretnie:

W przypadku pierwszej warstwy splotowej, czy „mapa funkcji” odpowiada wektorowi wejściowemu x, produktowi kropki z1wyjściowej, aktywacjom wyjściowym a1lub „procesowi” konwersji xdo a1, czy coś innego?
Podobnie, w przypadku drugiej warstwy splotowej, czy „mapa cech” odpowiada aktywacjom wejściowym a1, iloczynowi z2wyjściowej, aktywacji wyjściowej a2lub konwersji „procesu” a1na a2coś innego?

Ponadto, czy to prawda, że termin „mapa funkcji” jest dokładnie taki sam, jak „mapa aktywacji”? (czy faktycznie oznaczają dwie różne rzeczy?)

Dodatkowe referencje:

Fragmenty z sieci neuronowych i dogłębnego uczenia się - rozdział 6 :

* Nomenklatura jest tutaj używana luźno. W szczególności używam „mapy cech”, aby nie oznaczać funkcji obliczonej przez warstwę splotową, ale raczej aktywację ukrytych neuronów wychodzących z warstwy. Ten rodzaj łagodnego nadużywania nomenklatury jest dość powszechny w literaturze naukowej.

Fragmenty z wizualizacji i zrozumienia sieci splotowych przez Matta Zeilera :

W tym artykule przedstawiamy technikę wizualizacji, która ujawnia bodźce wejściowe, które pobudzają indywidualne mapy cech na dowolnej warstwie modelu. [...] Nasze podejście zapewnia natomiast nieparametryczny widok niezmienności, pokazujący, które wzorce z zestawu treningowego aktywują mapę obiektów. [...] lokalna operacja kontrastu, która normalizuje reakcje na mapach obiektów. [...] Aby zbadać daną aktywację konwekcyjną, ustawiamy wszystkie pozostałe aktywacje w warstwie na zero i przekazujemy mapy funkcji jako dane wejściowe do dołączonej warstwy dekonwnet. [...] Konwnet używa relu nieliniowości, które korygują mapy obiektów, dzięki czemu mapy obiektów są zawsze dodatnie. [...] Konwnet wykorzystuje wyuczone filtry do splotu map obiektów z poprzedniej warstwy. [...] Ryc. 6, te wizualizacje są dokładnymi reprezentacjami wzorca wejściowego, który stymuluje daną mapę funkcji w modelu [...], gdy części oryginalnego obrazu wejściowego odpowiadające wzorowi są zatkane, widzimy wyraźny spadek aktywności na mapie cech. [...]

Uwagi: wprowadza także termin „mapa obiektów” i „rektyfikowana mapa obiektów” na ryc. 1.

Fragmenty ze Stanford CS231n Rozdział o CNN :

[...] Jedną z niebezpiecznych pułapek, które można łatwo zauważyć dzięki tej wizualizacji, jest to, że niektóre mapy aktywacyjne mogą być zerowe dla wielu różnych danych wejściowych, co może wskazywać na martwe filtry i może być objawem wysokich wskaźników uczenia się [...] Typowo wyglądające aktywacje na pierwszej warstwie CONV (po lewej) i piątej warstwie CONV (po prawej) wyszkolonego AlexNet patrzącego na zdjęcie kota. Każde okno pokazuje mapę aktywacji odpowiadającą niektórym filtrom. Zauważ, że aktywacje są rzadkie (większość wartości wynosi zero, w tej wizualizacji pokazanej na czarno) i przeważnie lokalne.

Fragmenty z Przewodnika dla początkujących-do-zrozumienia-splotowych sieci neuronowych

[...] Każda unikalna lokalizacja na woluminie wejściowym generuje liczbę. Po najechaniu filtrem na wszystkie lokalizacje przekonasz się, że pozostała tablica liczb 28 x 28 x 1, którą nazywamy mapą aktywacyjną lub mapą obiektów.

neural-networks deep-learning conv-neural-network

— Atlas7
źródło

27

Mapa funkcji lub mapa aktywacji to aktywacje wyjściowe dla danego filtra (w Twoim przypadku a1), a definicja jest taka sama, niezależnie od tego, na jakiej warstwie jesteś.

Mapa obiektów i mapa aktywacji oznaczają dokładnie to samo. Nazywa się to mapą aktywacyjną, ponieważ jest mapowaniem, które odpowiada aktywacji różnych części obrazu, a także mapą obiektów, ponieważ jest to również mapowanie, gdzie określony rodzaj cechy znajduje się na obrazie. Wysoka aktywacja oznacza, że znaleziono pewną funkcję.

„Skorygowana mapa obiektów” to tylko mapa obiektów, która została utworzona za pomocą Relu. Możliwe, że zobaczysz termin „mapa funkcji” używany dla wyniku produktów punktowych (z1), ponieważ jest to tak naprawdę mapa miejsc, w których pewne cechy są na obrazie, ale nie jest to powszechne.

— Frobot
źródło

1

Dzięki za wkład. Twoje wyrównuje odpowiedź z moim rozumieniem (tj mapy aktywacyjne są a1, a2etc). Myślę, że w Conv2 nazwałbym a1mapę aktywacji wejścia i a2mapę aktywacji wyjścia. W Conv1 I xobraz wejściowy i a1mapa aktywacji wyjściowej.

— Atlas7

4

zanim porozmawiamy o tym, co oznacza mapa obiektów, wystarczy zdefiniować pojęcie wektora cechy.

wektor cech jest wektorową reprezentacją obiektów. Na przykład samochód może być reprezentowany przez [liczbę kół, drzwi. windows, age ..etc].

mapa obiektów to funkcja, która pobiera wektory cech w jednej przestrzeni i przekształca je w wektory cech w innej przestrzeni. Na przykład, mając wektor cech [objętość, waga, wzrost, szerokość], może zwrócić [1, objętość / wagę, wysokość * szerokość] lub [wysokość * szerokość], a nawet po prostu [objętość]

— HISI
źródło

Jaka jest definicja „mapy obiektów” (inaczej „mapy aktywacji”) w splotowej sieci neuronowej?

Wprowadzenie do tła

Pytanie

Dodatkowe referencje: