Komputerowe algorytmy widzenia (jak to możliwe?)

Niedawno natknąłem się na firmę, która stworzyła coś, co wydaje się być technologią widzenia komputerowego, która jest w stanie automatycznie wykrywać kradzieże w sklepach i ostrzegać użytkowników.

POŁĄCZYĆ

Oglądanie niektórych filmów i przykładów dostarczonych przez firmę całkowicie mnie zaskoczyło i zdumiewało, jak do cholery mogli osiągnąć tę funkcjonalność.

Rozumiem, że nikt tutaj nie będzie w stanie powiedzieć mi dokładnie, jak można to osiągnąć, ale czy ktoś jest świadomy - i mógłby mnie wskazać - badań w tej dziedzinie lub ewentualnie może podać szczegółowe informacje na temat tego, jak można zrealizować coś takiego wskazówki, od czego można zacząć?

Zrozumiałem, że algorytmy wizji komputerowej są od wielu lat tak zaawansowane. Czy tego rodzaju aplikacja jest naprawdę możliwa? Czy ktoś chce zaryzykować zgadnięcie, w jaki sposób to osiągnęli?

algorithms computer-vision

— Maxim Gerszkowicz
źródło

To nie wydaje się takie trudne. Gry cały czas wykrywają kolizje między obiektami; dlaczego nie mogłeś wykryć kolizji między osobą a półką przedmiotów, a następnie podnieść alarm, gdy ta osoba szła w kierunku drzwi, nie płacąc?

— Robert Harvey,

Dokładnie. To tylko rozpoznawanie obiektów i wykrywanie kolizji. Jeśli nie podłączysz go do skanera, łatwo go obejść, przesuwając obiekty nad skanerem, ale nieco powyżej niego. Wygląda na to, że obiekt zderzył się ze skanerem, ale w rzeczywistości tak nie było.

— Andrew T Finnell,

W każdym razie żaden z mechanizmów wykrywania opisanych na stronie internetowej (kochanie, utrata koszyka i samokontrola) nie wymaga niczego nawet tak wyrafinowanego. Sprawdzają w bardzo ograniczonym obszarze (kasie) i mogą sprawdzać krzyżowo przedmioty widoczne w koszyku pod kątem tego, co skaner kodów kreskowych rzeczywiście zeskanował.

— Robert Harvey,

Przepraszam, jestem zdezorientowany. Weźmy przykład gorącego serca. Mam dwa przedmioty, jeden niedrogi, jeden wysoki. Umieszczam niedrogi przedmiot pod kosztownym i skanuję. W tym momencie możemy porównać to, co zostało zeskanowane w systemie POS do tego, co widać na kamerze w kasie, ale wymaga to, aby system był w stanie „zrozumieć, co jest wkładane do torby” z setkami tysięcy potencjalnych przedmioty przez kamerę o marginalnej jakości. To wydaje się niezwykle skomplikowane. czego mi brakuje?

— Maxim Gershkovich,

Myślę, że przesadzasz z tym, jak dobrze to działa. Założę się, że istnieje przyzwoity poziom błędów i prawdopodobnie gra jest bardzo łatwa. Widzę to bardziej jako system typu dmuchawy gwizdka, w którym po prostu identyfikuje potencjalne miejsca w filmie, które wymagają ludzkiej oceny. Jako taka niedokładność jest dobrze tolerowana.

— Chris

Jesteś źle poinformowany o stanie techniki. Kilka lat temu pracowałem dla firmy, która budowała takie systemy do różnych celów. Jednym z nich był niezwykle skuteczny system kontroli wyjścia z lotniska, który z łatwością mógł odróżnić osobę idącą niewłaściwym korytarzem wyjściowym od rzeczy takich jak piłki w ruchu lub ludzie zmierzający właściwą drogą. Rozpoznawanie obiektów w scenie w czasie rzeczywistym nie jest łatwe, ale robiliśmy to na wbudowanych procesorach, a nie na superkomputerach.

Kilka lat temu nie widziałem niczego, co nie byłoby wiarygodne.

— Ross Patterson
źródło

W rzeczywistości firma ta wykorzystuje w Indiach hybrydę wizji komputerowej i ręcznego przeglądu. Nie jest to czysta wizja komputerowa, szczególnie w przypadku elementów takich jak kochanie. W rzeczywistości znam jednego sprzedawcę, który ma dość problem z tym systemem nie ze względu na wydajność systemu, którą przechowuję, ale z przepustowości wysyłanej do Indii. To ręczne kodowanie pozwala zmniejszyć liczbę błędów i jest obecnie typowym zapytaniem technicznym u niektórych dostawców.

— Mike MacMillan
źródło