Poprzednie odpowiedzi są naprawdę świetne, chciałbym zwrócić uwagę na kilka dodatkowych dodatków:
Segmentacja obiektów
jednym z powodów, dla których wypadło to niekorzystnie w środowisku naukowym, jest to, że jest problematycznie niejasne. Segmentacja obiektów oznaczała po prostu znalezienie jednej lub niewielkiej liczby obiektów na obrazie i narysowanie wokół nich granicy, a dla większości celów nadal można założyć, że to oznacza. Jednak zaczęto go również używać do oznaczania segmentacji plamek, które mogą być obiektami, segmentacji obiektów z tła (obecnie nazywane częściej odejmowaniem tła lub segmentacją tła lub wykrywaniem pierwszego planu), a nawet w niektórych przypadkach używane zamiennie z rozpoznawaniem obiektów przy użyciu obwiedni (to szybko ustało wraz z pojawieniem się metod głębokich sieci neuronowych do rozpoznawania obiektów, ale wcześniejsze rozpoznawanie obiektów mogło również oznacza po prostu etykietowanie całego obrazu z zawartym w nim obiektem).
Co sprawia, że „segmentacja” jest „semantyczna”?
Po prostu każdy segment lub w przypadku metod głębokich każdy piksel otrzymuje etykietę klasy opartą na kategorii. Generalnie segmentacja to po prostu podział obrazu według jakiejś reguły. Na przykład segmentacja z przesunięciem średnim z bardzo wysokiego poziomu dzieli dane zgodnie ze zmianami energii obrazu. Cięcie wykresubazująca na segmentacji segmentacja podobnie nie jest wyuczona, ale pochodzi bezpośrednio z właściwości każdego obrazu oddzielnie od reszty. Nowsze metody (oparte na sieciach neuronowych) wykorzystują piksele, które są oznaczone, aby nauczyć się identyfikować lokalne cechy, które są powiązane z określonymi klasami, a następnie klasyfikować każdy piksel na podstawie tego, która klasa ma najwyższe zaufanie dla tego piksela. W ten sposób „etykietowanie pikseli” jest w rzeczywistości bardziej uczciwą nazwą zadania i pojawia się komponent „segmentacji”.
Segmentacja instancji
Prawdopodobnie najtrudniejsze, najbardziej istotne i oryginalne znaczenie segmentacji obiektów, „segmentacja instancji” oznacza segmentację poszczególnych obiektów w obrębie sceny, niezależnie od tego, czy są one tego samego typu. Jednak jednym z powodów, dla których jest to tak trudne, jest to, że z perspektywy wizji (i pod pewnymi względami filozoficznej) to, co sprawia, że instancja „obiektowa” nie jest do końca jasne. Czy części ciała są obiektami? Czy takie „obiekty części” powinny w ogóle być segmentowane za pomocą algorytmu segmentacji instancji? Czy powinny być podzielone na segmenty tylko wtedy, gdy są oddzielone od całości? A co z przedmiotami złożonymi, które powinny wyraźnie przylegać do siebie, ale można je rozdzielić jednym lub dwoma przedmiotami (czy kamień przyklejony do wierzchołka kija to topór, młot czy tylko kij i kamień, chyba że są odpowiednio wykonane?). Nie jest też t jasne, jak rozróżniać wystąpienia. Czy wola jest oddzielną instancją od innych ścian, do których jest przymocowana? W jakiej kolejności należy liczyć wystąpienia? Jak się pojawiają? Bliskość punktu widokowego? Pomimo tych trudności segmentacja obiektów jest nadal poważna, ponieważ jako ludzie wchodzimy w interakcje z przedmiotami przez cały czas, niezależnie od ich „etykiety klasy” (używając przypadkowych przedmiotów wokół ciebie jako ciężarków papieru, siedząc na przedmiotach, które nie są krzesłami), dlatego niektóre zbiory danych próbują rozwiązać ten problem, ale głównym powodem, dla którego nie poświęca się zbyt wiele uwagi temu problemowi, jest to, że nie jest on wystarczająco dobrze zdefiniowany.
Analiza scen / etykietowanie scen
Analiza scen jest podejściem ściśle segmentacyjnym do etykietowania scen, które również wiąże się z pewnymi niejasnościami. Historycznie, etykietowanie scen miało na celu podzielenie całej „sceny” (obrazu) na segmenty i nadanie im etykiety klasowej. Jednak oznaczało to również nadawanie etykiet klas obszarom obrazu bez jawnego ich segmentowania. W odniesieniu do segmentacji „segmentacja semantyczna” nie oznacza podziału całej sceny. W przypadku segmentacji semantycznej algorytm ma na celu segmentację tylko znanych obiektów i zostanie ukarany funkcją utraty do oznaczania pikseli, które nie mają żadnej etykiety. Na przykład zbiór danych MS-COCO jest zbiorem danych do segmentacji semantycznej, w której segmentowane są tylko niektóre obiekty.