Czy nauka nadzorowana jest podzbiorem nauki wzmacniającej?


Odpowiedzi:


24

Prawdą jest, że każdy nadzorowany problem uczenia się można uznać za równoważny problem uczenia się wzmacniającego: Niech stany odpowiadają danym wejściowym. Niech działania odpowiadają przewidywaniom wyniku. Zdefiniuj nagrodę jako ujemną funkcję straty stosowaną w nadzorowanym uczeniu się. Maksymalizuj oczekiwaną nagrodę. W przeciwieństwie do tego, problemy związane z uczeniem się przez wzmocnienie nie mogą być generalnie traktowane jako nadzorowane problemy uczenia się. Z tego punktu widzenia nadzorowane problemy uczenia się stanowią podzbiór problemów uczenia się wzmacniającego.

Jednak próba rozwiązania nadzorowanego problemu uczenia się przy użyciu ogólnego algorytmu uczenia się wzmacniającego byłaby raczej bezcelowa; wszystko to powoduje odrzucenie struktury, która ułatwiłaby rozwiązanie problemu. W uczeniu się wzmacniającym pojawiają się różne problemy, które nie są istotne dla uczenia się nadzorowanego. I nadzorowane uczenie się może korzystać z podejść, które nie mają zastosowania w ogólnych ustawieniach uczenia się wzmacniającego. Tak więc, chociaż istnieją pewne wspólne podstawowe zasady i wspólne techniki między polami, zwykle nie uważa się, że nadzorowane uczenie jest omawiane jako rodzaj uczenia wzmacniającego.

Bibliografia

Barto i Dietterich (2004) . Uczenie się ze wzmocnieniem i jego związek z uczeniem się nadzorowanym.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.