Czy nauka nadzorowana jest podzbiorem nauki wzmacniającej?

Wydaje się, że definicja nadzorowanego uczenia jest podzbiorem uczenia wzmacniającego, ze szczególnym rodzajem funkcji nagrody opartej na danych oznaczonych (w przeciwieństwie do innych informacji w środowisku). Czy to dokładne przedstawienie?

— Allstar
źródło

Prawdą jest, że każdy nadzorowany problem uczenia się można uznać za równoważny problem uczenia się wzmacniającego: Niech stany odpowiadają danym wejściowym. Niech działania odpowiadają przewidywaniom wyniku. Zdefiniuj nagrodę jako ujemną funkcję straty stosowaną w nadzorowanym uczeniu się. Maksymalizuj oczekiwaną nagrodę. W przeciwieństwie do tego, problemy związane z uczeniem się przez wzmocnienie nie mogą być generalnie traktowane jako nadzorowane problemy uczenia się. Z tego punktu widzenia nadzorowane problemy uczenia się stanowią podzbiór problemów uczenia się wzmacniającego.

Jednak próba rozwiązania nadzorowanego problemu uczenia się przy użyciu ogólnego algorytmu uczenia się wzmacniającego byłaby raczej bezcelowa; wszystko to powoduje odrzucenie struktury, która ułatwiłaby rozwiązanie problemu. W uczeniu się wzmacniającym pojawiają się różne problemy, które nie są istotne dla uczenia się nadzorowanego. I nadzorowane uczenie się może korzystać z podejść, które nie mają zastosowania w ogólnych ustawieniach uczenia się wzmacniającego. Tak więc, chociaż istnieją pewne wspólne podstawowe zasady i wspólne techniki między polami, zwykle nie uważa się, że nadzorowane uczenie jest omawiane jako rodzaj uczenia wzmacniającego.

Bibliografia

Barto i Dietterich (2004) . Uczenie się ze wzmocnieniem i jego związek z uczeniem się nadzorowanym.

— user20160
źródło