Jaka jest historia związana z deskryptorem SIFT?

Poniżej znajduje się artykuł z Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).

Jednym oczywistym podejściem byłoby próbkowanie lokalnych intensywności obrazu wokół punktu kluczowego w odpowiedniej skali i dopasowanie ich za pomocą znormalizowanej miary korelacji. Jednak prosta korelacja poprawek obrazu jest bardzo wrażliwa na zmiany, które powodują błędną rejestrację próbek, takie jak zmiana punktu widzenia lub 3D lub niesztywne odkształcenie. Lepsze podejście wykazali Edelman, Intrator i Poggio (1997). Ich zaproponowana reprezentacja została oparta na modelu widzenia biologicznego, w szczególności złożonych neuronów w pierwotnej korze wzrokowej.Te złożone neurony reagują na gradient o określonej orientacji i częstotliwości przestrzennej, ale umiejscowienie gradientu na siatkówce pozwala na przesuwanie się w małym polu odbiorczym zamiast być precyzyjnie zlokalizowane. Edelman i in. wysunął hipotezę, że funkcją tych złożonych neuronów było umożliwienie dopasowywania i rozpoznawania obiektów 3D z różnych punktów widzenia.

Próbuję zrozumieć deskryptor SIFT. Rozumiem poprzedni etap (wykrywacz klawiszy).

Nie wiem, dlaczego jest to realizowane w ten sposób. Chcę poznać historię.

sift

— jakeoung
źródło

Deskryptor uzyskany z $64\times 64$ sąsiedztwo punktu zainteresowania w uzyskanej skali.

Dzieli to $64\times 64$ region do $16\times 16$ łatki, które prowadzą do 16 łatek.

Dla każdej łatki obliczamy gradienty, a następnie znajdujemy dominujący kierunek gradientów (który ma pewne szczegóły), a następnie przyjmując dominujący kierunek jako kierunek odniesienia, podzielimy 360 stopni na 8 kątowy obszar, każdy ma 45 stopni, a następnie zsumujemy wielkość każdego gradientu, który leży w każdym obszarze kątowym.

Możemy to potraktować jako rozkład lub 8-binowy histogram kierunku gradientu (biorąc pod uwagę, że silne gradienty mają więcej informacji, musimy użyć ich z większą wagą do obliczenia rozkładu, więc używamy ich wielkości jako ich masy, co prowadzi do sumy ponad ich wielkość). Następnie znormalizujemy te histogramy.

Na końcu każdej łatki mamy histogram 8 bin i 16 łatek, co prowadzi do deskryptora liczb 128.

Po znalezieniu dominującego kierunku nasz deskryptor staje się również niezmienny. Dzięki zastosowaniu gradientów nasz deskryptor staje się niezmienny w odniesieniu do podstawowego oświetlenia, a poprzez normalizację uzyskanych histogramów nasz deskryptor staje się niezmienny w stosunku do kontrastu obrazu.

— Mohammad M.
źródło