Zestaw dynamicznych strategii, dzięki którym algorytm może poznać strukturę środowiska online poprzez adaptacyjne podejmowanie działań związanych z różnymi nagrodami, tak aby zmaksymalizować zarobione nagrody.
Witryna sztucznej inteligencji definiuje uczenie się poza polityką i nauczanie na zasadach w następujący sposób: „Osoba ucząca się poza polityką poznaje wartość optymalnej polityki niezależnie od działań agenta. Q-learning jest osobą uczącą się poza polityką. Uczący się polityki poznaje wartość polityki realizowanej przez agenta, w tym kroki eksploracji . ” …
Uczę się o uczeniu się przez wzmocnienie i staram się zrozumieć koncepcję nagrody dyskontowej. Zatem nagroda jest konieczna, aby powiedzieć systemowi, które pary stan-działanie są dobre, a które złe. Ale nie rozumiem, dlaczego zniżka jest konieczna. Dlaczego miałoby mieć znaczenie, czy dobry stan zostanie osiągnięty wkrótce, czy później? Rozumiem, że …
Komputery od dawna potrafią grać w szachy za pomocą techniki „brute-force”, szukając określonej głębokości, a następnie oceniając pozycję. Komputer AlphaGo używa jednak tylko ANN do oceny pozycji (o ile mi wiadomo, nie dokonuje głębokiego przeszukiwania). Czy można stworzyć silnik szachowy, który gra w szachy w taki sam sposób, jak AlphaGo …
Widzę następujące równanie w „ In Reinforcement Learning. An Introduction ”, ale nie do końca podążam za krokiem, który zaznaczyłem na niebiesko poniżej. Jak dokładnie pochodzi ten krok?
Nadzorowana nauka 1) Ludzka tworzy klasyfikator oparty na wejściowych i wyjściowych danych 2) Ten klasyfikator jest szkolony przy użyciu zestawu danych szkoleniowych 3) Ten klasyfikator jest testowany z testowym zestawem danych 4) Wdrożenie, jeśli wynik jest zadowalający Do użycia, gdy: „Wiem, jak klasyfikować te dane, potrzebuję tylko ciebie (klasyfikatora), aby …
Najbardziej znanym algorytmem bandyty jest górna granica ufności (UCB), która spopularyzowała tę klasę algorytmów. Od tego czasu zakładam, że są teraz lepsze algorytmy. Jaki jest obecnie najlepszy algorytm (pod względem wydajności empirycznej lub granic teoretycznych)? Czy ten algorytm jest w pewnym sensie optymalny?
Próbuję przeprowadzić analizę szeregów czasowych i jestem nowy w tej dziedzinie. Codziennie liczę wydarzenie z lat 2006-2009 i chcę dopasować do niego model szeregów czasowych. Oto postęp, który poczyniłem: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) Otrzymany wykres to: Aby sprawdzić, czy dane zawierają sezonowość i trendy, wykonuję kroki wymienione w tym poście …
Po zagraniu zbyt dużej ilości Angry Birds zacząłem obserwować własne strategie. Okazuje się, że opracowałem bardzo specyficzne podejście do uzyskania 3 gwiazdek na każdym poziomie. To sprawiło, że zastanawiałem się nad wyzwaniami związanymi z opracowaniem systemu uczenia maszynowego, który byłby w stanie grać w Angry Birds. Interakcja z grą i …
Ostatnio natknąłem się na słowo „Recurrent Reinforcement Learning”. Rozumiem, czym jest „Recurrent Neur Network” i czym jest „Reinforcement Learning”, ale nie mogłem znaleźć wielu informacji na temat tego, czym jest „Recurrent Reinforcement Learning”. Czy ktoś może mi wyjaśnić, czym jest „uczenie się z powtarzalnym wzmocnieniem” i jaka jest różnica między …
SARSA i Q Learning to algorytmy uczenia wzmacniającego, które działają w podobny sposób. Najbardziej uderzającą różnicą jest to, że SARSA jest na polisie, podczas gdy Q Learning jest na polisie. Reguły aktualizacji są następujące: Q Learning: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] gdzie st,atst,ats_t,\,a_t i rtrtr_t są stanem, akcja i nagroda w kroku …
W artykule DeepMind na temat Deep Q-Learning dla gier wideo Atari ( tutaj ) używają one chciwości epsilon do eksploracji podczas treningu. Oznacza to, że gdy akcja zostanie wybrana podczas treningu, zostanie wybrana albo jako akcja o najwyższej wartości q, albo akcja losowa. Wybór między tymi dwoma jest losowy i …
Studiując uczenie się przez wzmocnienie, natknąłem się na wiele form funkcji nagrody: , R ( s , a , s ′ ) , a nawet funkcji nagrody, która zależy tylko od bieżącego stanu. Powiedziawszy to, zdałem sobie sprawę, że nie jest łatwo „stworzyć” lub „zdefiniować” funkcję nagrody.R(s,a)R(s,a)R(s,a)R(s,a,s′)R(s,a,s′)R(s,a,s') Oto moje pytania: …
Dlaczego litera Q została wybrana w imieniu Q-learningu? Większość liter jest wybieranych jako skrót, na przykład oznacza ππ\pistrategię, a vvv oznacza wartość. Ale nie sądzę, że Q jest skrótem dowolnego słowa.
Wydaje się, że definicja nadzorowanego uczenia jest podzbiorem uczenia wzmacniającego, ze szczególnym rodzajem funkcji nagrody opartej na danych oznaczonych (w przeciwieństwie do innych informacji w środowisku). Czy to dokładne przedstawienie?
Wieloręcy bandyci działają dobrze w sytuacjach, w których masz wybór i nie jesteś pewien, który z nich zmaksymalizuje twoje zdrowie. Możesz użyć algorytmu do niektórych rzeczywistych sytuacji. Na przykład nauka może być dobrą dziedziną: Jeśli dziecko uczy się stolarstwa i jest w tym kiepski, algorytm poinformuje go, że prawdopodobnie powinien …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.