Pytania otagowane jako reinforcement-learning

Zestaw dynamicznych strategii, dzięki którym algorytm może poznać strukturę środowiska online poprzez adaptacyjne podejmowanie działań związanych z różnymi nagrodami, tak aby zmaksymalizować zarobione nagrody.

5
Jaka jest różnica między uczeniem się poza polityką a uczeniem się na podstawie polityki?
Witryna sztucznej inteligencji definiuje uczenie się poza polityką i nauczanie na zasadach w następujący sposób: „Osoba ucząca się poza polityką poznaje wartość optymalnej polityki niezależnie od działań agenta. Q-learning jest osobą uczącą się poza polityką. Uczący się polityki poznaje wartość polityki realizowanej przez agenta, w tym kroki eksploracji . ” …


2
Dlaczego nie ma mechanizmów uczenia się głębokiego wzmocnienia dla szachów, podobnych do AlphaGo?
Komputery od dawna potrafią grać w szachy za pomocą techniki „brute-force”, szukając określonej głębokości, a następnie oceniając pozycję. Komputer AlphaGo używa jednak tylko ANN do oceny pozycji (o ile mi wiadomo, nie dokonuje głębokiego przeszukiwania). Czy można stworzyć silnik szachowy, który gra w szachy w taki sam sposób, jak AlphaGo …


2
Uczenie nadzorowane, uczenie się bez nadzoru i uczenie się wzmacniające: podstawy przepływu pracy
Nadzorowana nauka 1) Ludzka tworzy klasyfikator oparty na wejściowych i wyjściowych danych 2) Ten klasyfikator jest szkolony przy użyciu zestawu danych szkoleniowych 3) Ten klasyfikator jest testowany z testowym zestawem danych 4) Wdrożenie, jeśli wynik jest zadowalający Do użycia, gdy: „Wiem, jak klasyfikować te dane, potrzebuję tylko ciebie (klasyfikatora), aby …


3
Analiza dziennych szeregów czasowych
Próbuję przeprowadzić analizę szeregów czasowych i jestem nowy w tej dziedzinie. Codziennie liczę wydarzenie z lat 2006-2009 i chcę dopasować do niego model szeregów czasowych. Oto postęp, który poczyniłem: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) Otrzymany wykres to: Aby sprawdzić, czy dane zawierają sezonowość i trendy, wykonuję kroki wymienione w tym poście …


2
Co to jest cykliczne uczenie się zbrojenia
Ostatnio natknąłem się na słowo „Recurrent Reinforcement Learning”. Rozumiem, czym jest „Recurrent Neur Network” i czym jest „Reinforcement Learning”, ale nie mogłem znaleźć wielu informacji na temat tego, czym jest „Recurrent Reinforcement Learning”. Czy ktoś może mi wyjaśnić, czym jest „uczenie się z powtarzalnym wzmocnieniem” i jaka jest różnica między …

1
Kiedy wybrać SARSA vs. Q Learning
SARSA i Q Learning to algorytmy uczenia wzmacniającego, które działają w podobny sposób. Najbardziej uderzającą różnicą jest to, że SARSA jest na polisie, podczas gdy Q Learning jest na polisie. Reguły aktualizacji są następujące: Q Learning: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] gdzie st,atst,ats_t,\,a_t i rtrtr_t są stanem, akcja i nagroda w kroku …


2
jak zrobić funkcję nagrody w nauce wzmacniającej
Studiując uczenie się przez wzmocnienie, natknąłem się na wiele form funkcji nagrody: , R ( s , a , s ′ ) , a nawet funkcji nagrody, która zależy tylko od bieżącego stanu. Powiedziawszy to, zdałem sobie sprawę, że nie jest łatwo „stworzyć” lub „zdefiniować” funkcję nagrody.R(s,a)R(s,a)R(s,a)R(s,a,s′)R(s,a,s′)R(s,a,s') Oto moje pytania: …



4
W jakich rzeczywistych sytuacjach możemy zastosować algorytm wielorękiego bandyty?
Wieloręcy bandyci działają dobrze w sytuacjach, w których masz wybór i nie jesteś pewien, który z nich zmaksymalizuje twoje zdrowie. Możesz użyć algorytmu do niektórych rzeczywistych sytuacji. Na przykład nauka może być dobrą dziedziną: Jeśli dziecko uczy się stolarstwa i jest w tym kiepski, algorytm poinformuje go, że prawdopodobnie powinien …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.