Różnica między klasyfikacją opartą na pikselach a obiektami?

Usiłuję jasno zrozumieć różnicę między klasyfikacją opartą na pikselach i obiektach w dziedzinie teledetekcji i mam nadzieję, że ktoś z tej społeczności zapewni wgląd.

W oparciu o informacje, które do tej pory posiadam, moje obecne rozumowanie jest następujące:

Klasyfikacja oparta na pikselach : Klasyfikacja odbywa się na poziomie jednego piksela, z wykorzystaniem tylko informacji spektralnych dostępnych dla tego pojedynczego piksela (tzn. Wartości pikseli w danej lokalizacji są ignorowane). W tym sensie każdy piksel reprezentowałby przykład szkoleniowy dla algorytmu klasyfikacji, a ten przykład szkoleniowy miałby postać n-wymiarowego wektora, gdzie n była liczbą pasm widmowych w danych obrazu. Odpowiednio wyuczony algorytm klasyfikacji generowałby prognozę klasy dla każdego pojedynczego piksela na obrazie.

Klasyfikacja obiektowa: Klasyfikacja odbywa się na zlokalizowanej grupie pikseli, biorąc pod uwagę właściwości przestrzenne każdego piksela, ponieważ odnoszą się one do siebie. W tym sensie przykład szkolenia dla algorytmu klasyfikacji składałby się z grupy pikseli, a wyuczony algorytm klasyfikacji odpowiednio generowałby prognozę klasy dla pikseli na podstawie grupy. Na przykład, obraz może być podzielony na n segmentów o równej wielkości, a następnie każdy segment otrzymałby klasę (tj. Zawiera obiekt / nie zawiera obiektu).

Czy takie myślenie jest trafne w odniesieniu do znaczenia tych terminów, czy też coś przeoczyłem?

remote-sensing classification machine-learning

— RDG
źródło

Odpowiedzi:

Twoje rozumienie jest ogólnie poprawne, jednak w opisie klasyfikacji opartej na obiektach występują zagrożenia - termin „obiekt” odnosi się do grupy pikseli, a nie od tego, czy zawiera dany obiekt.
Ponadto głównym celem klasyfikacji opartej na obiektach nie jest posiadanie segmentów o równej wielkości, ale „pocięcie” / segmentacja obrazu na wewnętrznie jednorodne fragmenty o różnej wielkości. Wreszcie, przykładem szkolenia dla klasyfikacji obiektowej byłby zwykle jeden lub więcej fragmentów utworzonych w segmentacji obrazu.

Podsumowując, powyższe stanowią jedynie niewielkie zmiany w twoim opisie.

Teraz w centralnej części - kiedy zastosować każdą metodę i jak potencjalnie połączyć ich mocne strony.

— Mikkel Lydholm Rasmussen
źródło

Dziękuję, to naprawdę pomogło wyjaśnić. Podejrzewałem, że nie do końca rozumiałem subtelności klasyfikacji obiektowej! Interesujące jest to, że wspominasz o podejściach hybrydowych, do tej pory nie myślałem. Czy mogę zapytać, czy gdybym przyjął podejście z przesuwanymi oknami do wykrywania i klasyfikowania obiektów, czy istnieje techniczny termin na takie podejście stosowane w dziedzinie teledetekcji?

— RDG,

tak, nazywa się to zwojami. Zobacz moją odpowiedź.

— John Powell,

Moim zdaniem w klasyfikacji opartej na pikselach nie ma siły. Istnieją ciekawe przepływy pracy obejmujące zwoje i regresję, aby przewidzieć ramki ograniczające i lokalizację, ale sama klasyfikacja oparta na pikselach nie ma żadnej wartości, imho.

— John Powell,

@ JohnPowellakaBarça - podejście oparte na pikselach ma pewną wartość przy rozważaniu aplikacji wielopokoleniowych, w których klasyfikacja skupia się bardziej na zmianie obszarów, a nie na tradycyjnym pojedynczym oznaczeniu czasu.

— Mikkel Lydholm Rasmussen

Jasne, tak, w porządku. Chociaż prawdopodobnie podejścia oparte na regionach, wektoryzowane, a następnie porównywane w czasie, mogą zapewnić potencjalnie większy wgląd, ale twój punkt widzenia jest słuszny.

— John Powell,

Jeśli chodzi o klasyfikację opartą na pikselach, jesteś na miejscu. Każdy piksel jest wektorem n-wymiarowym i zostanie przypisany do pewnej klasy zgodnie z pewną metryką, niezależnie od tego, czy używa maszyn wsparcia wektorów, MLE, pewnego rodzaju klasyfikatora knn itp.

Jeśli chodzi o klasyfikatory regionalne, w ciągu ostatnich kilku lat nastąpił ogromny rozwój, napędzany kombinacją układów GPU, ogromną ilością danych, chmurą i szeroką dostępnością algorytmów dzięki rozwojowi open source (ułatwione przez github). Jednym z największych osiągnięć w dziedzinie wizji / klasyfikacji komputerowej były konwergentne sieci neuronowe. Warstwy splotowe „uczą się”, które mogą opierać się na kolorze, jak w przypadku tradycyjnych klasyfikatorów opartych na pikselach, ale także tworzą detektory krawędzi i wszelkiego rodzaju inne ekstraktory funkcji, które mogą istnieć w obszarze pikseli (stąd część splotowa) nigdy nie można wyodrębnić z klasyfikacji opartej na pikselach. Oznacza to, że rzadziej błędnie sklasyfikują piksel na środku obszaru pikseli innego typu - jeśli kiedykolwiek przeprowadziłeś klasyfikację i dostałeś lód na środku Amazonki, zrozumiesz ten problem.

Następnie stosuje się w pełni połączoną sieć neuronową do „funkcji” poznanych przez zwoje w celu dokonania klasyfikacji. Jedną z innych wielkich zalet CNN jest to, że są niezmienne w skali i rotacji, ponieważ zwykle istnieją warstwy pośrednie między warstwami splotu i warstwą klasyfikacyjną, które uogólniają funkcje, wykorzystując pule i usuwanie, aby uniknąć nadmiernego dopasowania i pomóc w rozwiązywaniu problemów skala i orientacja.

Istnieje wiele zasobów na temat splotowych sieci neuronowych, chociaż najlepsza musi być klasa Standord Andrei Karpathy , który jest jednym z pionierów w tej dziedzinie, a cała seria wykładów jest dostępna na youtube .

Jasne, istnieją inne sposoby radzenia sobie z klasyfikacją opartą na pikselach w zależności od obszaru, ale jest to obecnie najnowocześniejsze podejście i ma wiele zastosowań poza klasyfikacją teledetekcji, takich jak tłumaczenie maszynowe i samochody samojezdne.

Oto kolejny przykład klasyfikacji opartej na regionie , w której wykorzystano Open Street Map do oznaczonych danych treningowych, w tym instrukcje dotyczące konfigurowania TensorFlow i uruchamiania w AWS.

Oto przykład zastosowania Google Earth Engine klasyfikatora opartego na wykrywaniu krawędzi, w tym przypadku do nawadniania obrotowego - wykorzystującego jedynie jądro gaussowskie i zwoje, ale znowu, pokazującego moc podejścia opartego na regionie / krawędzi.

Podczas gdy przewaga obiektu nad klasyfikacją opartą na pikselach jest dość powszechnie akceptowana, oto ciekawy artykuł w Listach teledetekcyjnych oceniający skuteczność klasyfikacji obiektowej .

Wreszcie zabawny przykład, aby pokazać, że nawet przy klasyfikatorach regionalnych / splotowych wizja komputerowa jest nadal bardzo trudna - na szczęście najmądrzejsi ludzie w Google, Facebook itp. Pracują nad algorytmami, aby móc określić różnicę między psy, koty i różne rasy psów i kotów. Osoby zainteresowane teledetekcją mogą spać spokojnie w nocy: D

— John Powell
źródło

Bardzo prosta odpowiedź jest następująca:

Jeśli używasz tylko informacji spektralnych (intensywności pikseli) jako zestawu treningowego, klasyfikujesz bazę pikseli.

Jeśli jako zestaw treningowy wykorzystasz zarówno informacje przestrzenne (piksele sąsiedztwa), jak i informacje spektralne, klasyfikujesz bazę obiektów (używając algorytmu opartego na segmentacji, np. DBScan). W Computer Vision ten DBScan używał do ekstrakcji Superpixel.

Uwaga: możesz użyć informacji spektralnych w dowolnym znaczeniu (rozmiar, kształt, kontekst / tekstura) do ekstrakcji obiektów.

Możesz użyć różnych podejść, aby przeprowadzić ekstrakcję cech za pomocą informacji spektralnych.

Główne pytanie brzmi: w jaki sposób można znaleźć najbardziej odpowiednie podejście do wydobywania cech i zastosować skuteczny algorytm (wykrywanie krawędzi, segmentacja oparta na widmie, klastrowanie) dla postawionego problemu, aby wyrzucić informacje z informacji spektralnych.

Można by pomyśleć o macierzy splotu, aby wykonać niezłą analizę zarówno informacji widmowej, jak i przestrzennej w celu stworzenia zestawu treningowego.

Odniesienie: Moja wiedza po ponad 3 latach pracy w dziedzinie teledetekcji i domeny GIS.

— morteza
źródło