Zastanawiam się nad zaprogramowaniem robota następującego za pomocą algorytmów uczenia się zbrojenia. Pytanie, nad którym się zastanawiam, brzmi: w jaki sposób mogę uzyskać algorytm do nauki nawigacji dowolną dowolną ścieżką?
Po zapoznaniu się z książką Sutton & Barto dotyczącą uczenia się przez wzmocnienie, rozwiązałem problem z ćwiczeniami na torze wyścigowym, podczas którego w samochodzie nauczyłem się nie schodzić z toru i regulować jego prędkość. Jednak ten problem z ćwiczeniami sprawił, że agent nauczył się poruszać po wytrenowanym torze.
Czy w ramach nauki o wzmocnieniu chodzi o to, aby robot poruszał się po dowolnych ścieżkach? Czy agent absolutnie musi mieć mapę toru wyścigowego lub ścieżki? Jakich parametrów mógłbym użyć dla mojej przestrzeni stanów?