Powód kwadratowych obrazów w głębokim uczeniu się

Większość zaawansowanych modeli głębokiego uczenia, takich jak VGG, ResNet itp., Wymaga kwadratowych obrazów jako danych wejściowych, zwykle o rozmiarze piksela x . $224x224$

Czy istnieje powód, dla którego dane wejściowe muszą być w jednakowym kształcie, czy też mogę zbudować model konwekcyjny z powiedzmy (jeśli chcę na przykład rozpoznać twarz i mam obrazy portretowe)? $100x200$

Czy jest większa korzyść z większego rozmiaru piksela, powiedzmy ? $512x512$

deep-learning image-classification image-recognition

— spore234
źródło

Określone wymiary w pikselach nie są wymagane do normalnego funkcjonowania splotowych sieci neuronowych. Prawdopodobnie wartości zostały wybrane z powodów pragmatycznych - takich jak kompromis między wykorzystaniem szczegółów obrazu a liczbą parametrów i wymaganym rozmiarem zestawu treningowego.

Ponadto, jeśli dane źródłowe mają różne proporcje obrazu, jakiś portret, jakiś krajobraz, a docelowy obiekt zwykle znajduje się w środku, to wycięcie kwadratowe od środka może być rozsądnym kompromisem.

Gdy zwiększysz rozmiar obrazu wejściowego, zwiększysz również ilość szumu i wariancji, z którymi sieć będzie musiała sobie poradzić, aby przetworzyć to wejście. Może to oznaczać więcej warstw - zarówno splotowych, jak i łączących. Może to również oznaczać, że potrzebujesz więcej przykładów szkoleń i oczywiście każdy przykład szkolenia będzie większy. Łącznie zwiększają one zasoby obliczeniowe potrzebne do ukończenia szkolenia. Jeśli jednak uda ci się pokonać ten wymóg, możliwe jest, że otrzymasz dokładniejszy model dla każdego zadania, w którym dodatkowe piksele mogą mieć znaczenie.

Jedną z praktycznych zasad dotyczących tego, czy chcesz uzyskać wyższą rozdzielczość, jest to, że dla celu Twojej sieci ekspert w dziedzinie człowieka mógłby skorzystać z dodatkowej rozdzielczości i lepiej wykonać to zadanie. Może tak być w przypadku systemów regresji, w których sieć wyprowadza pewne wartości liczbowe z obrazu - np. Do rozpoznawania twarzy wydobywających dane biometryczne, takie jak odległość między rysami twarzy. Może być również pożądane w przypadku zadań przetwarzania obrazów, takich jak automatyczne maskowanie - najnowocześniejsze wyniki dla tych zadań mogą być nadal w niższej rozdzielczości niż obrazy komercyjne, w których chcielibyśmy je zastosować w praktyce.

— Neil Slater
źródło