Oto streszczenie problemu nauki online / bandyty, nad którym pracowałem latem. Nie widziałem wcześniej takiego problemu i wygląda całkiem interesująco. Jeśli znasz jakieś powiązane prace, byłbym wdzięczny za referencje.
Problem Ustawienie dotyczy wielorękich bandytów. Masz N. broni. Każde ramię ma nieznany, ale stały rozkład prawdopodobieństwa nad nagrodami, które można zdobyć, grając w niego. Dla konkretności załóżmy, że każde ramię i płaci nagrodę 10 $ z prawdopodobieństwem p [i] i nagrodę 0 $ z prob. 1-p [i] .
W każdej rundzie t wybierasz zestaw S [t] broni do gry. Za każde wybrane ramię płacisz z góry 1 USD . Za każdą wybraną rękę zbierasz nagrodę pochodzącą z (nieznanego) rozkładu prawdopodobieństwa nagrody tej ręki. Wszystkie nagrody są dodawane na twoje konto bankowe, a wszystkie opłaty są odejmowane od tego konta. Ponadto otrzymasz kredyt w wysokości 1 USD na początku każdej iteracji.
Problem polega na opracowaniu polityki wyboru podzbioru uzbrojenia do gry w każdej iteracji, aby zmaksymalizować zysk (tj. Nagrody minus opłaty za grę) w wystarczająco długim horyzoncie czasowym, z zastrzeżeniem, że musi on utrzymywać nieujemny bilans konta na poziomie cały czas.
Nie określiłem, czy dystrybucje nagród na ramię są wybierane z wcześniejszej dystrybucji, czy wybierane przez przeciwnika. Oba wybory mają sens. Sformułowanie przeciwnika jest dla mnie bardziej atrakcyjne, ale prawdopodobnie trudniejsze do zrobienia. Tutaj przeciwnik wybiera wektor (D1, D2, .., DN) rozkładów. Biorąc pod uwagę wypłaty, optymalną polityką zrównoważoną budżetowo jest gra wszystkimi broniami, których oczekiwana nagroda jest większa niż 1 $. Niech P będzie zyskiem na krok tej optymalnej wszechwiedzącej polityki. Chcę, aby moje zasady online minimalizowały żal (tj. Utratę zysków w przedziale czasu T) w stosunku do tej wszechwiedzącej zasady.