Termin „niezmiennik skali” oznacza tutaj, co następuje. Załóżmy, że masz obraz I i wykryłeś cechę (czyli punkt zainteresowania) f w pewnym miejscu (x, y) i na pewnym poziomie skali s . Powiedzmy teraz, że masz obraz I ' , który jest skalowaną wersją I (na przykład próbkowania w dół). Następnie, jeśli twój detektor cech jest niezmienny w skali, powinieneś być w stanie wykryć odpowiednią cechę f ' w I' w odpowiedniej lokalizacji (x ', y') i odpowiedniej skali s ' , gdzie (x, y, s) i (x ', y', s ') są powiązane przez odpowiednią transformację skalowania.
Innymi słowy, jeśli wykrywacz niezmiennik skali wykrył punkt funkcji odpowiadający czyjejś twarzy, a następnie powiększysz lub pomniejszysz kamerę w tej samej scenie, nadal powinieneś wykryć punkt funkcji na tej twarzy.
Oczywiście, chciałbyś również mieć „deskryptor funkcji”, który pozwoliłby ci dopasować dwie funkcje, a dokładnie to daje SIFT.
Tak więc, ryzykując dalsze zamieszanie, istnieją tutaj dwie rzeczy, które są niezmienne w skali. Jednym z nich jest wykrywacz punktów zainteresowania DoG, który jest niezmienny w skali, ponieważ wykrywa określony typ cech obrazu (plamy) niezależnie od ich skali. Innymi słowy, wykrywacz DoG wykrywa plamy o dowolnej wielkości. Inną rzeczą niezmienną dla skali jest deskryptor elementu, który jest histogramem orientacji gradientu, który pozostaje mniej więcej podobny dla tej samej cechy obrazu pomimo zmiany skali.
Nawiasem mówiąc, różnica Gaussów jest tutaj stosowana jako przybliżenie do filtru Laplaciana-Gaussa.