Poniżej znajduje się artykuł z Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).
Jednym oczywistym podejściem byłoby próbkowanie lokalnych intensywności obrazu wokół punktu kluczowego w odpowiedniej skali i dopasowanie ich za pomocą znormalizowanej miary korelacji. Jednak prosta korelacja poprawek obrazu jest bardzo wrażliwa na zmiany, które powodują błędną rejestrację próbek, takie jak zmiana punktu widzenia lub 3D lub niesztywne odkształcenie. Lepsze podejście wykazali Edelman, Intrator i Poggio (1997). Ich zaproponowana reprezentacja została oparta na modelu widzenia biologicznego, w szczególności złożonych neuronów w pierwotnej korze wzrokowej.Te złożone neurony reagują na gradient o określonej orientacji i częstotliwości przestrzennej, ale umiejscowienie gradientu na siatkówce pozwala na przesuwanie się w małym polu odbiorczym zamiast być precyzyjnie zlokalizowane. Edelman i in. wysunął hipotezę, że funkcją tych złożonych neuronów było umożliwienie dopasowywania i rozpoznawania obiektów 3D z różnych punktów widzenia.
Próbuję zrozumieć deskryptor SIFT. Rozumiem poprzedni etap (wykrywacz klawiszy).
Nie wiem, dlaczego jest to realizowane w ten sposób. Chcę poznać historię.