Próbuję więc przeprowadzić wstępne szkolenie na obrazach ludzi za pomocą sieci splotowych. Czytam gazety ( papierowe1 i Paper2 ) i ten związek stackoverflow , ale nie jestem pewien, jestem zrozumieć strukturę sieci (nie jest dobrze zdefiniowane w dokumentach).
Pytania:
Mogę mieć moje dane wejściowe, a następnie warstwę szumu, a następnie warstwę konwekcyjną, a następnie warstwę puli - czy potem - czy wyłączam pulę, zanim podam mój wynik (który jest taki sam jak mój obraz wejściowy)?
Powiedzmy, że mam kilka (135.240) zdjęć. Jeśli użyję jądra 32, (12,21), a następnie puli (2,2), skończę z 32 (62, 110) mapami funkcji. Czy teraz wyłączę pulę, aby uzyskać 32 (124, 220) mapy obiektów, a następnie spłaszczyć je? przed podaniem mojej (135,240) warstwy wyjściowej?
Jeśli mam wiele takich warstw puli konwekcyjnej, czy powinienem je trenować jeden po drugim - jak w przypadku zestawionych auto-koderów denoised? Lub - czy mogę mieć coś takiego jak input-conv-pool-conv-pool-conv-pool-output (wyjście jest takie samo jak wejście)? W takim przypadku, w jaki sposób należy zarządzać pulowaniem, usuwaniem buforów? Czy powinienem de-poolować tylko w ostatniej warstwie puli przed wyjściem? I znowu - jaki powinien być czynnik zmiany rozmiaru tego usuwania puli? Czy intencją jest przywrócenie map obiektów do kształtu danych wejściowych?
Czy powinienem wprowadzać warstwy szumu po każdej warstwie depool-depool-depool?
A potem przy dostrajaniu - mam po prostu usunąć warstwy z pulowania i pozostawić resztę bez zmian. A może powinienem usunąć zarówno warstwy szumu, jak i warstwy z puli
Czy ktokolwiek może wskazać mi adres URL, który szczegółowo opisuje architekturę takiego ustawionego enkodera splotowego, aby przeprowadzić wstępne szkolenie na obrazach?