Obrazy niekwadratowe do klasyfikacji obrazów

9

Mam zestaw danych z szerokimi obrazami: 1760 x 128. Przeczytałem już tutoriale i książki, a większość z nich stwierdza, że obrazy wejściowe powinny być kwadratowe, a jeśli nie, są one przekształcane w kwadrat, aby być szkolonym w już wyszkolonych (na obrazach kwadratowych) cnns. Czy istnieje sposób wytrenowania cnn dla obrazów innych niż kwadratowe, czy powinienem szukać innej opcji jako wypełnienia?

conv-neural-network

— Voila
źródło

4

Istnieje kilka sposobów rozwiązania problemu w zależności od klasyfikatora. Przesuwanie systemu Windows to metoda, którą znam najlepiej, jest stosowana do metod sieci neuronowych. Ta metoda polega na zrobieniu małego podobrazu i przesuwaniu go w górę iw dół z pewnymi nakładkami. Niektóre problemy obejmują znalezienie optymalnych parametrów przesunięcia i problemy z wieloma skalami.

Ostateczne wykrycie jest zwykle określane na podstawie stopnia pewności klasyfikatora, że każdy z podobrazów należy do tej klasy: na przykład większość głosów, całkowite prawdopodobieństwo lub całkowity dystans od granicy decyzji. Poniżej wymieniłem niektóre materiały, pierwszy dotyczy metody klasyfikatora HOG, ale pojęcia są takie same.

— Joseph Santarcangelo
źródło

2

Nie powinno to powodować żadnych problemów, jeśli używasz CNN. Zrobiłem CNN do rozpoznawania twarzy, a ponieważ twarze mają zwykle około 70% szerokości i wysokości, użyłem zdjęć treningowych o wymiarach 80 x 100 pikseli (trochę dodatkowej szerokości w przypadku, gdy głowa była pod kątem). Twoje filtry powinny jednak nadal być kwadratowe.

Wszystkie te zmiany polegałyby na tym, że teraz musisz śledzić szerokość i wysokość dla swoich map aktywacyjnych / zbiorczych zamiast jednej wartości określającej rozmiar. Na przykład -

Wejściowy obraz 80 x 100 Zastosuj filtr splotu 5 x 5 daje mapę aktywacji przy 76 x 96 Zastosowanie puli zastosowania 2 x 2 daje mapę połączonych aktywacji przy 38 x 48

— Frobot
źródło