Statystyki i duże zbiory danych q-learning

4

Dlaczego podczas nauki Q-Learning wykorzystuje chciwość epsilon?

W artykule DeepMind na temat Deep Q-Learning dla gier wideo Atari ( tutaj ) używają one chciwości epsilon do eksploracji podczas treningu. Oznacza to, że gdy akcja zostanie wybrana podczas treningu, zostanie wybrana albo jako akcja o najwyższej wartości q, albo akcja losowa. Wybór między tymi dwoma jest losowy i …

18 machine-learning reinforcement-learning q-learning deep-rl

2

Dlaczego wybrano literę Q w Q-learningu?

Dlaczego litera Q została wybrana w imieniu Q-learningu? Większość liter jest wybieranych jako skrót, na przykład oznacza ππ\pistrategię, a vvv oznacza wartość. Ale nie sądzę, że Q jest skrótem dowolnego słowa.

17 terminology reinforcement-learning history q-learning

1

Jaka jest różnica między epizodem a epoką w głębokim uczeniu się Q?

Próbuję zrozumieć słynny artykuł „Playing Atari with Deep Reinforcement Learning” ( pdf ). Nie jestem pewien, jaka jest różnica między epoką a epizodem . W algorytmie zewnętrzna pętla kończy się epizodami , natomiast na rysunku oś x jest oznaczona epoką . W kontekście uczenia się przez wzmacnianie nie jestem jasne, …

14 neural-networks terminology reinforcement-learning q-learning

1

Omówienie algorytmów uczenia się zbrojenia

Obecnie szukam Przeglądu algorytmów uczenia się zbrojenia i być może ich klasyfikacji. Ale obok Sarsa i Q-Learning + Deep Q-Learning nie mogę znaleźć żadnych popularnych algorytmów. Wikipedia daje mi przegląd różnych ogólnych metod uczenia się zbrojenia, ale nie ma odniesienia do różnych algorytmów wdrażających te metody. Ale może mylę ogólne …

9 reinforcement-learning q-learning

2

Uczenie się przez wzmocnienie w środowisku niestacjonarnym [zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 22 dni temu . P1: Czy istnieją ogólnie przyjęte lub powszechnie akceptowane metody radzenia sobie ze środowiskiem niestacjonarnym w …

9 markov-process reinforcement-learning stationarity q-learning

4

Jak interpretować krzywą przeżycia modelu zagrożenia Coxa?

Jak interpretujesz krzywą przeżycia z proporcjonalnego modelu hazardu Coxa? W tym przykładzie zabawki załóżmy, że mamy proporcjonalny model hazardu Coxa dla agezmiennej w kidneydanych i generujemy krzywą przeżycia. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Na przykład o czasie 200200200, które stwierdzenie jest prawdziwe? czy oba są w …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

Jak efektywne jest Q-learning z sieciami neuronowymi, gdy na działanie przypada jedna jednostka wyjściowa?

Tło: Używam aproksymacji wartości Q sieci neuronowej w moim zadaniu uczenia się zbrojenia. Podejście jest dokładnie takie samo, jak opisane w tym pytaniu , jednak samo pytanie jest inne. W tym podejściu liczba wyników jest liczbą działań, które możemy podjąć. W prostych słowach algorytm jest następujący: wykonaj akcję A, zbadaj …

9 machine-learning neural-networks reinforcement-learning q-learning

Pytania otagowane jako q-learning