Jaka jest różnica między Problemem Wieloklasowym a Multilabelowym


52

Jaka jest różnica między problemem wieloklasowym a problemem wielopłaszczyznowym?


Oba zadania można wykonać za pomocą pakietu oprogramowania Vowpal Wabbit (dostępne są wiersze poleceń, powiązania python).
Vladislavs Dovgalecs

Nauczyłem się tej koncepcji i rozwinąłem swoje zrozumienie dzięki temu postowi , wyjaśniali klasyfikację wielu marek w bardzo elegancki sposób.
user235077

Odpowiedzi:


45

Podejrzewam, że różnica polega na tym, że w problemach z wieloma klasami klasy wzajemnie się wykluczają, podczas gdy w przypadku problemów z wieloma etykietami każda etykieta reprezentuje inne zadanie klasyfikacji, ale zadania są w jakiś sposób powiązane (więc zaletą jest ich wspólne rozwiązywanie, a nie osobno ). Na przykład, w słynnym kraby leptograspus zbiorze istnieją przykłady mężczyzn i kobiety w dwóch formach barwnych krabów. Możesz podejść do tego jako problemu wieloklasowego z czterema klasami (męsko-niebieski, żeńsko-niebieski, męsko-pomarańczowy, żeńsko-pomarańczowy) lub jako problem z wieloma etykietami, gdzie jedna etykieta to mężczyzna / kobieta, a druga niebieski /Pomarańczowy. Zasadniczo w przypadku problemów z wieloma etykietami wzór może należeć do więcej niż jednej klasy.


@Dirkran Dzięki za wyjaśnienie. Czy znasz jakieś inne źródło, w którym mogę uzyskać zestaw danych wielowarstwowych inne niż csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html i mulan.sourceforge.net/datasets.html
Learner

@ Uczeń, przepraszam, to nie jest coś, nad czym dużo pracowałem. Warto przyjrzeć się uczeniu wielozadaniowemu, które ma pewne podobieństwa do uczenia się wielu etykiet. Być może niektóre z tych zestawów danych mogą być również przydatne jako punkty odniesienia dla uczenia się wielu marek.
Dikran Marsupial

26

Klasyfikacja wieloklasowa oznacza zadanie klasyfikacyjne obejmujące więcej niż dwie klasy; np. sklasyfikuj zestaw zdjęć owoców, którymi mogą być pomarańcze, jabłka lub gruszki. Klasyfikacja wieloklasowa zakłada, że ​​każda próbka jest przypisana do jednej i tylko jednej etykiety: owocem może być jabłko lub gruszka, ale nie oba jednocześnie.

Klasyfikacja wielopłaszczyznowa przypisuje do każdej próbki zestaw etykiet docelowych. Można to uznać za przewidywanie właściwości punktu danych, które nie wykluczają się wzajemnie, np. Tematy istotne dla dokumentu. Tekst może dotyczyć dowolnej religii, polityki, finansów lub edukacji w tym samym czasie lub żadnej z nich.

Zaczerpnięte z http://scikit-learn.org/stable/modules/multiclass.html


18

Aby uzupełnić inne odpowiedzi, oto kilka liczb. Jeden wiersz = oczekiwany wynik dla jednej próbki.

Wieloklasowy

Jedna kolumna = jedna klasa (kodowanie na gorąco)

wprowadź opis zdjęcia tutaj

Multilabel

Jedna kolumna = jedna klasa

wprowadź opis zdjęcia tutaj


Widzisz to:

  • w przypadku wielopłaszczyznowym jednej próbce można przypisać więcej niż jedną klasę.
  • w przypadku wieloklasowym są w sumie więcej niż 2 klasy.

Na marginesie, nic nie stoi na przeszkodzie, abyś miał problem z klasyfikacją wielu wyjść i wieloklasów , np .:

wprowadź opis zdjęcia tutaj


7

Problem wieloklasowy ma przypisanie instancji do jednego ze skończonego, wzajemnie wykluczającego się zbioru klas. Jak w podanym już przykładzie kraba (z @Dikran): męski-niebieski, żeński-niebieski, męski-pomarańczowy, żeński-pomarańczowy. Każda z nich jest wykluczona z innych i razem są kompleksowe.

Jedną z form problemu wielu etykiet jest podzielenie ich na dwie etykiety: płeć i kolor; gdzie płeć może być mężczyzną lub kobietą, a kolor może być niebieski lub pomarańczowy. Pamiętaj jednak, że jest to szczególny przypadek problemu dotyczącego wielu etykiet, ponieważ każda instancja otrzyma każdą etykietę (to znaczy każdy krab ma zarówno płeć, jak i kolor).

Problemy z wieloma etykietami obejmują również inne przypadki, które pozwalają przypisać zmienną liczbę etykiet do każdej instancji. Na przykład artykuł w gazecie lub serwisie przewodowym może być przypisany do kategorii AKTUALNOŚCI, POLITYKA, SPORT, MEDYCYNA itp. Jedna opowieść o ważnym wydarzeniu sportowym otrzymałaby etykietę SPORTS; podczas gdy inne, związane z napięciami politycznymi ujawnionymi przez dane wydarzenie sportowe, mogą zyskać zarówno etykiety SPORTS, jak i POLITYKA. Tam, gdzie jestem, w USA wyniki Superbowl są oznaczone zarówno SPORTS, jak i NEWS ze względu na społeczny wpływ tego wydarzenia.

Zauważ, że ta forma etykietowania, ze zmienną liczbą etykiet, może zostać przekształcona w formę podobną do przykładu z krabami; z wyjątkiem tego, że każda etykieta jest traktowana jako LABEL-X lub nie-LABEL-X. Ale nie wszystkie metody wymagają tego przekształcenia.


2

I jeszcze jedna różnica polega na tym, że problem wielu etykiet wymaga od modelu uczenia się korelacji między różnymi klasami, ale w problemach wieloklasowych różne klasy są od siebie niezależne.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.