Kooperacyjne uczenie się przez wzmacnianie

10

Mam już działającą implementację dla pojedynczego agenta pracującego nad problemem cen dynamicznych w celu maksymalizacji przychodów. Problem, z którym pracuję, wiąże się jednak z kilkoma różnymi produktami, które są dla siebie zamiennikami, więc dynamiczna wycena ich wszystkich przez niezależnych uczniów wydaje się nieprawidłowa, ponieważ cena jednego wpływa na nagrodę drugiego. Celem byłoby dynamiczne wycenienie ich wszystkich, aby zmaksymalizować sumę każdego dochodu. $Q(\lambda)$

Przeprowadziłem badania, aby znaleźć coś, co w ten sposób stosuje uczenie się przez wzmacnianie, ale w wielu wdrożeniach wieloagentowych skupiłem się bardziej na konkurencyjnych grach niż na współpracy lub zakładają niepełną wiedzę o innych agentach ( znajomość każdego agenta w tym scenariuszu). Czy istnieją w ten sposób dobrze zbadane / udokumentowane zastosowania wspólnego uczenia się?

machine-learning reinforcement-learning

— użytkownik3704120
źródło

1

Możesz spojrzeć na te kartki. Pierwszy jest dość związany z twoim zadaniem.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
źródło

0

Podsumowując, to, co próbujesz osiągnąć, to wydajność Pareto.

Aby uczynić go współpracującym, musisz zdefiniować jedną funkcję nagrody, która jest wspólna dla wszystkich graczy (może to być funkcja, która w pewien sposób łączy poszczególne funkcje nagrody).

W jakiś sposób musisz zważyć nagrody, które otrzymujesz od jednego produktu w stosunku do innych.

— Juan Leni
źródło