Kooperacyjne uczenie się przez wzmacnianie


10

Mam już działającą implementację dla pojedynczego agenta pracującego nad problemem cen dynamicznych w celu maksymalizacji przychodów. Problem, z którym pracuję, wiąże się jednak z kilkoma różnymi produktami, które są dla siebie zamiennikami, więc dynamiczna wycena ich wszystkich przez niezależnych uczniów wydaje się nieprawidłowa, ponieważ cena jednego wpływa na nagrodę drugiego. Celem byłoby dynamiczne wycenienie ich wszystkich, aby zmaksymalizować sumę każdego dochodu.Q(λ)

Przeprowadziłem badania, aby znaleźć coś, co w ten sposób stosuje uczenie się przez wzmacnianie, ale w wielu wdrożeniach wieloagentowych skupiłem się bardziej na konkurencyjnych grach niż na współpracy lub zakładają niepełną wiedzę o innych agentach ( znajomość każdego agenta w tym scenariuszu). Czy istnieją w ten sposób dobrze zbadane / udokumentowane zastosowania wspólnego uczenia się?

Odpowiedzi:



0

Podsumowując, to, co próbujesz osiągnąć, to wydajność Pareto.

Aby uczynić go współpracującym, musisz zdefiniować jedną funkcję nagrody, która jest wspólna dla wszystkich graczy (może to być funkcja, która w pewien sposób łączy poszczególne funkcje nagrody).

W jakiś sposób musisz zważyć nagrody, które otrzymujesz od jednego produktu w stosunku do innych.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.