Jaka jest różnica między Inception v2 a Inception v3?

18

Papier Idąc głębiej ze zwojów opisuje GoogleNet który zawiera oryginalne moduły powstania:

Zmiana na początek v2 polegała na tym, że zastąpiły one splot 5x5 dwoma kolejnymi splotami 3x3 i zastosowały pule:

Jaka jest różnica między Inception v2 a Inception v3?

— Martin Thoma
źródło

Czy to po prostu normalizacja wsadowa? Czy też Inception v2 ma już normalizację wsadową?

— Martin Thoma

github.com/SKKSaikia/CNN-GoogLeNet To repozytorium zawiera wszystkie wersje GoogLeNet i ich różnice. Spróbuj.

— Amartya Ranjan Saikia

22

W artykule Batch Normalization , Sergey i in., 2015. zaproponował architekturę Inception-v1, która jest wariantem GoogleNet w artykule Idąc głębiej ze zwojami , a tymczasem wprowadzono normalizację wsadową do Inception (BN-Inception).

Główną różnicą w stosunku do sieci opisanej w (Szegedy i in., 2014) jest to, że warstwy splotowe 5x5 są zastępowane dwiema kolejnymi warstwami splotów 3x3 z maksymalnie 128 filtrami.

W artykule „ Przemyślenie architektury Incepcji na rzecz wizji komputerowej ” autorzy zaproponowali Inception-v2 i Inception-v3.

W Inception-v2 wprowadzili faktoryzację (rozkładają zwoje na mniejsze) i wprowadzili drobne zmiany w Inception-v1.

Zauważ, że podzieliliśmy tradycyjny splot 7x7 na trzy splot 3x3

Jeśli chodzi o Inception-v3 , jest to wariant Inception-v2, który dodaje pomocnicze BN.

BN pomocnicze odnosi się do wersji, w której w pełni połączona warstwa pomocniczego klasyfikatora jest również znormalizowana, a nie tylko zwoje. Odwołamy się do modelu [Inception-v2 + BN pomocniczy] jako Inception-v3.

— daoliker
źródło

3

oprócz tego, o czym wspomniał daoliker

inception v2 wykorzystywał separowalny splot jako pierwszą warstwę głębokości 64

cytat z papieru

W naszym modelu zastosowano pierwszą separację splotu z mnożnikiem głębokości 8 na pierwszej warstwie splotowej. Zmniejsza to koszty obliczeniowe, jednocześnie zwiększając zużycie pamięci w czasie szkolenia.

dlaczego to jest ważne ponieważ został upuszczony w v3 i v4 i początkowej resnet, ale ponownie wprowadzony i intensywnie używany w mobilenet później.

— Muayyad Alsadi
źródło

1

Odpowiedź można znaleźć w dokumencie Going deeper with convolutions: https://arxiv.org/pdf/1512.00567v3.pdf

Sprawdź tabelę 3. Incepcja v2 to architektura opisana w dokumencie „Przechodzenie głębiej ze splotami”. Inception v3 to ta sama architektura (niewielkie zmiany) z innym algorytmem szkoleniowym (RMSprop, regulizator wygładzania etykiet, dodawanie głowicy pomocniczej z normą wsadową w celu poprawy treningu itp.).

— Sid M.
źródło

1

W rzeczywistości powyższe odpowiedzi wydają się błędne. Rzeczywiście, było to wielki bałagan z nazywaniem. Wydaje się jednak, że zostało to naprawione w artykule, który wprowadza Inception-v4 (patrz: „Inception-v4, Inception-ResNet i wpływ pozostałych połączeń na uczenie się”):

Głęboką architekturę splotową Inception wprowadzono jako GoogLeNet w (Szegedy i in. 2015a), tutaj o nazwie Inception-v1. Później architektura Incepcji została udoskonalona na różne sposoby, najpierw poprzez wprowadzenie normalizacji partii (Ioffe i Szegedy 2015) (Inception-v2). Później dodatkowe pomysły faktoryzacji w trzeciej iteracji (Szegedy i in. 2015b), które w niniejszym raporcie będą określane jako Inception-v3.

— desa
źródło