Niestety, jak dotąd przyjęta odpowiedź @Sycorax, choć szczegółowa, jest nieprawidłowa.
Właściwie, najlepszy przykład regresji poprzez kategoryczną entropię krzyżową - Wavenet - został zaimplementowany w TensorFlow .
Zasada jest taka, że dyskretyzujesz przestrzeń wyjściową, a następnie twój model przewiduje tylko odpowiedni przedział; przykład w dziedzinie modelowania dźwięku znajduje się w sekcji 2.2 artykułu . Podczas gdy technicznie model dokonuje klasyfikacji, ostatecznym rozwiązaniem jest regresja.
Oczywistym minusem jest to, że tracisz rozdzielczość wyjściową. Może to jednak nie stanowić problemu (przynajmniej uważam, że sztuczny asystent Google'a przemówił bardzo ludzkim głosem ), lub możesz pobawić się postprocessingiem, np. Interpolując między najbardziej prawdopodobnym binem a jego dwoma sąsiadami.
Z drugiej strony takie podejście sprawia, że model jest znacznie potężniejszy w porównaniu ze zwykłą jednostkową jednostką liniową, tj. Umożliwia wyrażanie prognoz multimodalnych lub ocenę jego pewności. Należy jednak zauważyć, że to ostatnie można naturalnie osiągnąć innymi sposobami, np. Poprzez wyraźne wyjście (log) wariancji, jak w automatycznych koderach wariacyjnych.
W każdym razie to podejście nie daje się dobrze skalować do bardziej wielowymiarowych wyników, ponieważ wtedy rozmiar warstwy wyjściowej rośnie wykładniczo, co sprawia, że jest to zarówno problem obliczeniowy, jak i modelowy.