Pytania otagowane jako reinforcement-learning

Zestaw dynamicznych strategii, dzięki którym algorytm może poznać strukturę środowiska online poprzez adaptacyjne podejmowanie działań związanych z różnymi nagrodami, tak aby zmaksymalizować zarobione nagrody.

3
Dlaczego zawsze istnieje co najmniej jedna polisa, która jest lepsza lub równa od wszystkich innych polis?
Uczenie się przez zbrojenie: wprowadzenie. Druga edycja, w toku ., Richard S. Sutton i Andrew G. Barto (c) 2012, s. 67–68. Rozwiązanie zadania polegającego na uczeniu się o wzmocnieniu oznacza z grubsza znalezienie polityki, która na dłuższą metę osiągnie wiele nagród. W przypadku skończonych MDP możemy precyzyjnie zdefiniować optymalną politykę …

2
Pytania dotyczące Q-Learning z wykorzystaniem sieci neuronowych
Wdrożyłem Q-Learning zgodnie z opisem w http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf W celu ok. Q (S, A) Używam struktury sieci neuronowej, jak poniżej, Aktywacja Sigmoid Wejścia, liczba wejść + 1 dla neuronów akcji (wszystkie wejścia skalowane 0-1) Wyjścia, pojedyncze wyjście. Wartość Q N liczba M ukrytych warstw. Metoda eksploracji losowa 0 <rand () <propExplore …

1
GAM vs LOESS vs splajny
Kontekst : Chcę, aby narysować linię na wykresie rozrzutu, że nie pojawia się parametryczne, dlatego używam geom_smooth()w ggplotw R. Automatycznie zwraca geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method., …


1
Dlaczego nauka głębokiego wzmacniania jest niestabilna?
W artykule DeepMind z 2015 r. Na temat uczenia się głębokiego wzmacniania stwierdzono, że „poprzednie próby połączenia RL z sieciami neuronowymi były w dużej mierze nieudane z powodu niestabilnego uczenia się”. Następnie w artykule wymieniono niektóre przyczyny tego zjawiska, oparte na korelacjach między obserwacjami. Czy ktoś mógłby wyjaśnić, co to …

1
Optymalny algorytm rozwiązywania problemów n-uzbrojonych bandytów?
Czytałem o wielu algorytmów rozwiązywania problemów n uzbrojonych bandyckie jak -greedy, Softmax i UCB1, ale mam pewne problemy z sortowaniem przez co jest najlepsze podejście do minimalizacji żal.ϵϵ\epsilon Czy istnieje znany optymalny algorytm rozwiązywania problemu n-uzbrojonego bandyty? Czy istnieje wybór algorytmu, który wydaje się działać najlepiej w praktyce?

2
Dlaczego doświadczenie odtwarzania wymaga algorytmu niezgodnego z zasadami?
W artykule wprowadzającym DQN „ Playing Atari with Deep Reinforcement Learning ” wspomniano: Pamiętaj, że ucząc się na podstawie powtórki z doświadczenia, musisz nauczyć się pozasądowych zasad (ponieważ nasze obecne parametry różnią się od parametrów używanych do generowania próbki), co motywuje wybór Q-learningu. Nie do końca zrozumiałem, co to znaczy. …






1
Q-learning z Neural Network jako aproksymacja funkcji
Próbuję użyć sieci neuronowej w celu przybliżenia wartości Q w Q-learningu, tak jak w pytaniach dotyczących Q-Learning z wykorzystaniem sieci neuronowych . Jak zasugerowano w pierwszej odpowiedzi, używam liniowej funkcji aktywacji dla warstwy wyjściowej, podczas gdy nadal używam funkcji aktywacji sigmoidalnej w ukrytych warstwach (2, chociaż mogę to zmienić później). …

1
Czy model P (Y | X) można wytrenować za pomocą stochastycznego spadku gradientu z nie-iidowych próbek P (X) i iidowych próbek P (Y | X)?
Podczas uczenia sparametryzowanego modelu (np. W celu zmaksymalizowania prawdopodobieństwa) za pomocą stochastycznego spadku gradientowego na niektórych zbiorach danych, powszechnie przyjmuje się, że próbki szkoleniowe są pobierane z rozkładu danych szkoleniowych. Jeśli więc celem jest modelowanie wspólnego rozkładu , to każda próbka treningowa powinna zostać pobrana z tego rozkładu.( x i …

2
Dlaczego algorytm iteracji polityki jest zbieżny z optymalną funkcją polityki i wartości?
Czytałem notatki z wykładu Andrew Ng na temat uczenia się przez wzmacnianie i próbowałem zrozumieć, dlaczego iteracja polityki jest zbieżna z funkcją optymalnej wartości i optymalną polityką .V∗V∗V^*π∗π∗\pi^* Przypomnijmy, że iteracja zasad to: Zainicjuj π losowoPowtórz {L e t V. : =V.π \ dla bieżącej polityki, rozwiąż eqn bellman i …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.