Pracuję nad problemem wielorękiego bandyty, w którym nie mamy żadnych informacji na temat dystrybucji nagród.
Znalazłem wiele artykułów, które gwarantują żal granice dla rozkładu o znanym wiązaniu i dla ogólnych rozkładów ze wsparciem w [0,1].
Chciałbym dowiedzieć się, czy istnieje sposób na dobre wyniki w środowisku, w którym dystrybucja nagród nie ma żadnych gwarancji dotyczących jej wsparcia. Próbuję obliczyć nieparametryczny limit tolerancji i użyć tej liczby do skalowania dystrybucji nagród, aby móc użyć algorytmu 2 określonego w tym dokumencie ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). Czy ktoś myśli, że to podejście zadziała?
Jeśli nie, czy ktoś może wskazać mi właściwe miejsce?
Wielkie dzięki!