Projektując rozwiązania problemów, takich jak Lunar Lander na OpenAIGym , Reinforcement Learning to kuszący sposób na zapewnienie agentowi odpowiedniej kontroli działania, tak aby z powodzeniem wylądować.
Ale w jakich przypadkach algorytmy systemu sterowania, takie jak sterowniki PID , wykonałyby tylko odpowiednie zadanie, jeśli nie lepsze niż Reinforcement Learning?
Pytania takie jak to świetnie sprawdzają się w teorii tego pytania, ale niewiele robią, aby odnieść się do części praktycznej.
Jako inżynier sztucznej inteligencji, jakie elementy domeny problemowej powinny sugerować, że kontroler PID jest niewystarczający do rozwiązania problemu, a zamiast tego należy zastosować algorytm uczenia wzmacniającego (lub odwrotnie)?