Mam już działającą implementację dla pojedynczego agenta pracującego nad problemem cen dynamicznych w celu maksymalizacji przychodów. Problem, z którym pracuję, wiąże się jednak z kilkoma różnymi produktami, które są dla siebie zamiennikami, więc dynamiczna wycena ich wszystkich przez niezależnych uczniów wydaje się nieprawidłowa, ponieważ cena jednego wpływa na nagrodę drugiego. Celem byłoby dynamiczne wycenienie ich wszystkich, aby zmaksymalizować sumę każdego dochodu.
Przeprowadziłem badania, aby znaleźć coś, co w ten sposób stosuje uczenie się przez wzmacnianie, ale w wielu wdrożeniach wieloagentowych skupiłem się bardziej na konkurencyjnych grach niż na współpracy lub zakładają niepełną wiedzę o innych agentach ( znajomość każdego agenta w tym scenariuszu). Czy istnieją w ten sposób dobrze zbadane / udokumentowane zastosowania wspólnego uczenia się?