Znaczenie tej formuły jest naprawdę bardzo proste. Wyobraź sobie, że robisz dwa małe obszary obrazu o tym samym rozmiarze, niebieski i czerwony:
Funkcja okna równa się 0 poza czerwonym prostokątem (dla uproszczenia możemy założyć, że okno jest po prostu stałe w obrębie czerwonego prostokąta). Funkcja okna wybiera więc piksele, które chcesz obejrzeć, i przypisuje względne wagi każdemu pikselowi. (Najczęstsze jest okno Gaussa, ponieważ jest obrotowo symetryczne, wydajne do obliczania i podkreśla piksele w pobliżu środka okna.) Niebieski prostokąt jest przesunięty o (u, v).
Następnie obliczasz sumę do kwadratu różnicy między częściami obrazu oznaczonymi na czerwono i niebiesko, tzn. Odejmujesz je piksel po pikselu, kwadrat różnicujesz i sumujesz wynik (zakładając, dla uproszczenia, że okno = 1 w obszarze, którego szukamy w). Daje to jedną liczbę dla każdego możliwego (u, v) -> E (u, v).
Zobaczmy, co się stanie, jeśli obliczymy to dla różnych wartości u / v:
Najpierw zachowaj v = 0:
Nie powinno to być zaskoczeniem: różnica między częściami obrazu jest najniższa, gdy przesunięcie (u, v) między nimi wynosi 0. Wraz ze wzrostem odległości między dwiema łatami wzrasta również suma kwadratów różnic.
Utrzymanie u = 0:
Fabuła wygląda podobnie, ale suma kwadratowych różnic między dwiema częściami obrazu jest znacznie mniejsza po przesunięciu niebieskiego prostokąta w kierunku krawędzi.
Pełny wykres E (u, v) wygląda następująco:
Fabuła wygląda trochę jak „kanion”: jest tylko niewielka różnica, jeśli przesuniesz obraz w kierunku kanionu. Jest tak, ponieważ ta łatka obrazu ma dominującą (pionową) orientację.
To samo możemy zrobić dla innej poprawki obrazu:
Tutaj wykres E (u, v) wygląda inaczej:
Bez względu na to, w jaki sposób zmienisz łatkę, zawsze wygląda ona inaczej.
Tak więc kształt funkcji E (u, v) mówi nam coś o łatce obrazu
- jeśli E (u, v) jest wszędzie blisko 0, nie ma tekstury w łatce obrazu, którą oglądasz
- jeśli E (u, v) ma „kształt kanionu”, łatka ma dominującą orientację (może to być krawędź lub tekstura)
- jeśli E (u, v) ma „kształt stożka”, łata ma teksturę, ale nie ma dominującej orientacji. Tego rodzaju łatki szuka detektor narożny.
Wiele odniesień mówi, że jest to wielkość, o którą okno „w” przesuwało się… więc o ile przesuwa się okno? Jeden piksel… dwa piksele?
Zwykle w ogóle nie obliczasz E (u, v). Interesuje Cię tylko jego kształt w sąsiedztwie (u, v) = (0,0). Więc po prostu chcesz rozszerzenia Taylora E (u, v) w pobliżu (0,0), co całkowicie opisuje jego „kształt”.
Czy okno sumuje się nad pozycjami pikseli?
Z matematycznego punktu widzenia bardziej elegancki jest zakres sumowania dla wszystkich pikseli. Praktycznie rzecz biorąc, nie ma sensu sumowanie pikseli, gdy okno ma wartość 0.