Mam sieć neuronową skonfigurowaną do przewidywania czegoś, gdzie zmienna wyjściowa jest porządkowa. Opiszę poniżej, używając trzech możliwych wyjść A <B <C.
Jest całkiem oczywiste, jak używać sieci neuronowej do generowania danych kategorycznych: dane wyjściowe to tylko softmax ostatniej (zwykle w pełni połączonej) warstwy, jednej na kategorię, a przewidywana kategoria to ta o największej wartości wyjściowej (jest to domyślne w wielu popularnych modelach). Korzystałem z tego samego ustawienia dla wartości porządkowych. Jednak w tym przypadku wyjścia często nie mają sensu, na przykład wyjścia sieciowe dla A i C są wysokie, ale B jest niskie: nie jest to prawdopodobne w przypadku wartości porządkowych.
Mam na to jeden pomysł, który polega na obliczeniu straty na podstawie porównania wyników z 1 0 0 dla A, 1 1 0 dla B i 1 1 1 dla C. Dokładne progi można później wyregulować za pomocą innego klasyfikatora (np. Bayesian ), ale wydaje się, że odzwierciedla to zasadniczą ideę uporządkowania danych wejściowych, bez określania jakiejkolwiek konkretnej skali przedziałów.
Jaki jest standardowy sposób rozwiązania tego problemu? Czy są jakieś badania lub referencje opisujące zalety i wady różnych podejść?