Chciałbym użyć sieci neuronowej do klasyfikacji obrazów. Zacznę od wstępnie przeszkolonego CaffeNet i wyszkolę go do mojej aplikacji.
Jak przygotować obrazy wejściowe?
W tym przypadku wszystkie obrazy są tego samego obiektu, ale z różnymi odmianami (pomyśl: kontrola jakości). Są w nieco różnych skalach / rozdzielczościach / odległościach / warunkach oświetleniowych (w wielu przypadkach nie znam skali). Ponadto na każdym obrazie znajduje się obszar (znany) wokół interesującego obiektu, który powinien zostać zignorowany przez sieć.
Mógłbym (na przykład) przyciąć środek każdego obrazu, co gwarantuje, że zawiera część interesującego obiektu i żaden z ignorowanego obszaru; ale wydaje się, że to wyrzuciłoby informacje, a także wyniki nie byłyby tak naprawdę w tej samej skali (może 1,5-krotna odmiana).
Powiększanie zestawu danych
Słyszałem o tworzeniu większej ilości danych treningowych przez losowe przycinanie / odbicie lustrzane / itp. Czy istnieje standardowa metoda? Jakieś wyniki na temat tego, jak wiele poprawia dokładność klasyfikatora?