Optymalny algorytm rozwiązywania problemów n-uzbrojonych bandytów?


13

Czytałem o wielu algorytmów rozwiązywania problemów n uzbrojonych bandyckie jak -greedy, Softmax i UCB1, ale mam pewne problemy z sortowaniem przez co jest najlepsze podejście do minimalizacji żal.ϵ

Czy istnieje znany optymalny algorytm rozwiązywania problemu n-uzbrojonego bandyty? Czy istnieje wybór algorytmu, który wydaje się działać najlepiej w praktyce?


Prawdopodobnie nie ma uznanego optymalnego rozwiązania, ponieważ inaczej powiedzieliby to strona Wikipedii i nie byłoby eksperymentalnej strony Sourceforge
Henry

Czy nie powinno to być w Theoretical Computer Science SE?

1
@mbq, ponieważ uczenie się przez wzmocnienie jest dziedziną uczenia maszynowego, nie sądzę;)
steffen

@steffen Pewnie, nazwa wydawała się „tcsy”.

@mbq Nie rozumiem. Co znaczy „tscy”?
steffen

Odpowiedzi:


9

Oto dwa artykuły z badań, które niedawno znalazłem. Jeszcze ich nie czytałem, ale streszczenia brzmią obiecująco.

Joann`s Vermorel i Mehryar Mohri: Algorytmy wielorękiego bandyty i ocena empiryczna (2005)

Z streszczenia:

Problemem wielorękiego bandyty dla hazardzisty jest decyzja, które ramię automatu K-automatu należy pociągnąć, aby zmaksymalizować całkowitą nagrodę w serii prób. W ten sposób można modelować wiele rzeczywistych problemów związanych z uczeniem się i optymalizacją. W ostatnich dwóch dekadach zaproponowano kilka strategii lub algorytmów jako rozwiązanie tego problemu, ale o ile nam wiadomo, nie ma wspólnej oceny tych algorytmów.

Volodymyr Kuleshov i Doina Precup: Algorytmy dla problemu wielorękiego bandyty (2000) Ze streszczenia:

Po drugie, wydajność większości algorytmów różni się dramatycznie w zależności od parametrów problemu bandyty. Nasze badanie identyfikuje dla każdego algorytmu ustawienia, w których działa on dobrze, oraz ustawienia, w których działa on słabo.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.