Obszar uczenia maszynowego dotyczy tego, jak agenci oprogramowania powinni podejmować działania w środowisku, aby zmaksymalizować pojęcie skumulowanej nagrody.
Wydaje mi się, że funkcja VVV może być łatwo wyrażona przez funkcję QQQ a zatem funkcja VVV wydaje mi się zbędna. Jednak jestem nowy w uczeniu się przez wzmacnianie, więc chyba coś poszło nie tak. Definicje Q- i V-learning są w kontekście procesów decyzyjnych Markowa . MDP jest 5-krotny (S,A,P,R,γ)(S,A,P,R,γ)(S, …
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
Czytałem podsumowanie wysokiego poziomu na temat Google AlphaGo ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) i spotkałem się z terminem „zasady sieć ”i„ sieć wartości ”. Rozumiem na wysokim poziomie, że sieć strategii służy do sugerowania ruchów, a sieć wartości jest używana do: „Zmniejsz głębokość drzewa wyszukiwania [i oszacuj] zwycięzcę na każdej pozycji zamiast …
Najwyraźniej w uczeniu się przez wzmocnienie metoda różnic czasowych (TD) jest metodą ładowania początkowego. Z drugiej strony metody Monte Carlo nie są metodami ładowania początkowego. Czym dokładnie jest ładowanie w RL? Co to jest metoda ładowania początkowego w RL?
Czytam gazetę Google DeepMind Atari i staram się zrozumieć pojęcie „powtórki z doświadczenia”. Powtórka z doświadczenia pojawia się w wielu innych dokumentach do nauki o wzmocnieniu (szczególnie w AlphaGo), więc chcę zrozumieć, jak to działa. Poniżej znajdują się niektóre fragmenty. Po pierwsze, użyliśmy inspirowanego biologicznie mechanizmu zwanego odtwarzaniem doświadczeń, który …
Nie jestem specjalistą w tej dziedzinie, a moje pytanie jest prawdopodobnie bardzo naiwne. Wynika to z eseju, który ma na celu zrozumienie mocy i ograniczeń uczenia się przez wzmacnianie, jakie zastosowano w programie AlphaGo. Program AlphaGo został zbudowany przy użyciu m.in. program przeciwko sobie wiele razy. Teraz zastanawiam się, co …
Dla zabawy buduję zdalnie sterowany samochód. Używam Raspberry Pi jako komputera pokładowego; i używam różnych wtyczek, takich jak kamera Raspberry Pi i czujniki odległości, aby uzyskać informacje zwrotne na temat otoczenia samochodu. Używam OpenCV do przekształcania klatek wideo w tensory i używam Google TensorFlow do zbudowania zwiniętej sieci neuronowej do …
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
Mam już działającą implementację dla pojedynczego agenta pracującego nad problemem cen dynamicznych w celu maksymalizacji przychodów. Problem, z którym pracuję, wiąże się jednak z kilkoma różnymi produktami, które są dla siebie zamiennikami, więc dynamiczna wycena ich wszystkich przez niezależnych uczniów wydaje się nieprawidłowa, ponieważ cena jednego wpływa na nagrodę drugiego. …
Opracowuję program szachowy, który wykorzystuje algorytm przycinania alfa-beta i funkcję oceny, która ocenia pozycje za pomocą następujących cech, a mianowicie materiału, bezpieczeństwa królewskiego, mobilności, struktury pionków i pułapek itp. Moja funkcja oceny to pochodzące z fa( p ) = w1⋅ materiał + w2)⋅ kingsafety + w3)⋅ mobilność + w4⋅ struktura …
Od jakiegoś czasu staram się zrozumieć uczenie się o wzmocnieniu, ale jakoś nie jestem w stanie wyobrazić sobie, jak napisać program do nauki o wzmocnieniu, aby rozwiązać problem związany ze światem sieci. Czy możesz zasugerować mi kilka podręczników, które pomogłyby mi zbudować jasną koncepcję uczenia się przez wzmocnienie?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.