Jesteś na dobrej drodze.
Niezmienność oznacza, że można rozpoznać obiekt jako obiekt, nawet jeśli jego wygląd różni się w pewien sposób. Zasadniczo jest to dobra rzecz, ponieważ zachowuje tożsamość obiektu, kategorię (itp.) We wszystkich zmianach w szczegółach wizualnych danych wejściowych, takich jak względne pozycje widza / kamery i obiektu.
Poniższy obraz zawiera wiele widoków tego samego posągu. Ty (i dobrze wyszkolone sieci neuronowe) możesz rozpoznać, że ten sam obiekt pojawia się na każdym obrazie, nawet jeśli rzeczywiste wartości pikseli są zupełnie inne.
Zauważ, że tłumaczenie tutaj ma określone znaczenie w wizji, zapożyczone z geometrii. Nie odnosi się do żadnego rodzaju konwersji, inaczej niż w przypadku tłumaczenia z francuskiego na angielski lub między formatami plików. Zamiast tego oznacza to, że każdy punkt / piksel na obrazie został przesunięty o tę samą wartość w tym samym kierunku. Alternatywnie możesz myśleć o pochodzeniu, które zostało przesunięte o taką samą wartość w przeciwnym kierunku. Na przykład możemy wygenerować drugi i trzeci obraz w pierwszym rzędzie od pierwszego, przesuwając każdy piksel o 50 lub 100 pikseli w prawo.
fasolfa∗ gfasol
Jednym z podejść do rozpoznawania obiektów niezmiennych w tłumaczeniu jest wzięcie „szablonu” obiektu i splot z każdym możliwym położeniem obiektu na obrazie. Jeśli otrzymasz dużą odpowiedź w danej lokalizacji, sugeruje to, że obiekt podobny do szablonu znajduje się w tej lokalizacji. Takie podejście jest często nazywane dopasowywaniem szablonów .
Niezmienność vs. ekwiwariancja
Odpowiedź Santanu_Pattanayak ( tutaj ) wskazuje, że istnieje różnica między niezmiennością tłumaczenia a równoważnością tłumaczenia . Niezmienność tłumaczenia oznacza, że system generuje dokładnie taką samą odpowiedź, niezależnie od tego, jak zmienia się wprowadzane dane. Na przykład wykrywacz twarzy może zgłaszać „FACE FOUND” dla wszystkich trzech obrazów w górnym rzędzie. Równoważność oznacza, że system działa równie dobrze między pozycjami, ale jego reakcja zmienia się wraz z pozycją celu. Na przykład mapa cieplna „twarzy” ma podobne nierówności po lewej, w środku i po prawej, gdy przetwarza pierwszy rząd obrazów.
Jest to czasem ważne rozróżnienie, ale wiele osób nazywa oba zjawiska „niezmiennością”, zwłaszcza, że przekształcenie równoważnej odpowiedzi w niezmienną zwykle jest banalne - wystarczy zignorować wszystkie informacje o pozycji).