Jak zastosować sieci neuronowe do problemów z klasyfikacją wielu marek?


12

Opis:

Niech domeną problemową będzie klasyfikacja dokumentów tam, gdzie istnieje zestaw wektorów cech, z których każdy należy do jednej lub więcej klas. Na przykład dokument doc_1może należeć do kategorii Sportsi English.

Pytanie:

Używając sieci neuronowej do klasyfikacji, jaka byłaby etykieta dla wektora cech? czy byłby to wektor składający się ze wszystkich klas, tak że 0 nie ma wartości dla klas nieistotnych i 1 dla odpowiednich klas? Więc jeśli lista etykiet klas jest [Sports, News, Action, English, Japanese], to w przypadku dokumentu doc_1etykieta byłaby [1, 0, 0, 1, 0]?

Odpowiedzi:


3

Tak, w uczeniu się wielu etykiet informacje etykiety są często kodowane jako opisany wektor binarny. Jest to również łatwiejsze do oceny.

Możemy chcieć sprawdzić MULAN , bibliotekę Java typu open source do uczenia się wielu marek. Jest to rozszerzenie Weka i zaimplementowało wiele klasyfikatorów wielu etykiet, w tym sieci neuronowe. Na przykład możesz znaleźć BP-MLL tutaj .


8

Wygląda na to, że szukasz papieru:

Min-Ling Zhang i Zhi-Hua Zhou: Wielonakładowe sieci neuronowe z aplikacjami do funkcjonalnej genomiki i kategoryzacji tekstu

Z streszczenia:

W uczeniu z wieloma etykietami każda instancja w zestawie szkoleniowym jest powiązana z zestawem etykiet, a zadaniem jest wydrukowanie zestawu etykiet, którego rozmiar jest nieznany a priori dla każdej niewidzialnej instancji. W tym dokumencie problem ten został omówiony w sposób, w jaki zaproponowano algorytm sieci neuronowej o nazwie BP-MLL, tj. propagacja wsteczna dla uczenia się wielu znaków. ... Zastosowania dwóch rzeczywistych problemów uczenia się wielu etykiet, tj. Genomiki funkcjonalnej i kategoryzacji tekstu, pokazują, że wydajność BP-MLL jest lepsza niż w przypadku niektórych ugruntowanych algorytmów uczenia się wielu etykiet.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.