Kluczowymi słowami są tutaj priory i skala . Jako prosty przykład wyobraź sobie, że próbujesz przewidzieć wiek osoby na podstawie zdjęcia. Dzięki zestawowi danych obrazów i grup wiekowych możesz wyszkolić model dogłębnego uczenia się, aby dokonywać prognoz. Jest to obiektywnie naprawdę nieefektywne, ponieważ 90% obrazu jest bezużyteczne, a tylko region z osobą jest faktycznie przydatny. W szczególności twarz osoby, jej ciało i może ubrania.
Z drugiej strony możesz zamiast tego użyć wstępnie przeszkolonej sieci wykrywania obiektów, aby najpierw wyodrębnić ramki ograniczające dla danej osoby, przyciąć obraz, a następnie przekazać go przez sieć. Ten proces znacznie poprawi dokładność twojego modelu z wielu powodów:
1) Wszystkie zasoby sieciowe (tj. Wagi) mogą skupiać się na rzeczywistym zadaniu przewidywania wieku, w przeciwieństwie do konieczności najpierw znalezienia osoby. Jest to szczególnie ważne, ponieważ twarz osoby zawiera przydatne funkcje. W przeciwnym razie drobniejsze funkcje, których potrzebujesz, mogą zostać utracone w pierwszych kilku warstwach. Teoretycznie wystarczająco duża sieć mogłaby rozwiązać ten problem, ale byłoby to bardzo nieefektywne. Przycięty obraz jest również znacznie bardziej regularny niż obraz oryginalny. Podczas gdy na oryginalnym obrazie jest mnóstwo szumów, można stwierdzić, że rozbieżności w przyciętym obrazie są znacznie bardziej skorelowane z celem.
2) Przycięty obraz można znormalizować, aby uzyskać tę samą skalę . Pomaga to drugiej sieci radzić sobie z problemami ze skalowaniem, ponieważ na oryginalnym obrazie ludzie mogą występować w pobliżu lub daleko. Wcześniejsza normalizacja skali sprawia, że przycięty obraz gwarantuje, że będzie w nim osoba, która wypełnia cały przycięty obraz (pomimo tego, że jest w pikselach, jeśli są daleko). Aby zobaczyć, jak to może pomóc w skalowaniu, przycięty obiekt, który ma połowę szerokości i wysokości oryginalnego obrazu, ma 4x krotną liczbę pikseli do przetworzenia, a zatem ta sama sieć zastosowana do tego obrazu miałaby 4x pole odbiorcze oryginalnej sieci na każdej warstwie.
Na przykład w konkursie kaggle płuc częstym tematem w najlepszych rozwiązaniach było pewnego rodzaju wstępne przetwarzanie obrazów płuc, które przycinało je jak najwięcej i izolowało składniki każdego płuca. Jest to szczególnie ważne w przypadku obrazów 3D, ponieważ efekt jest sześcienny: usuwając 20% każdego wymiaru, pozbywasz się prawie połowy pikseli!