Czytałem o wielu algorytmów rozwiązywania problemów n uzbrojonych bandyckie jak -greedy, Softmax i UCB1, ale mam pewne problemy z sortowaniem przez co jest najlepsze podejście do minimalizacji żal.
Czy istnieje znany optymalny algorytm rozwiązywania problemu n-uzbrojonego bandyty? Czy istnieje wybór algorytmu, który wydaje się działać najlepiej w praktyce?