The problem of reinforcement learning of multiagent systems in the game formulation is considered. The Markovian model of stochastic game is constructed, criteria of game learning are formulated, the Q-method and corresponding algorithm of the stochastic game solving are described, results of computer realization of a Q-method are analyzed.
1. Тарасов В.Б. От многоагентных систем к интеллектуальным организациям: философия, психология, информатика / В.Б. Тарасов. — М.: Эдиториал УРСС, 2002. — 352 с.
2. Wooldridge M. An Introduction to Multiagent Systems / M. Wooldridge. — John Wiley & Sons, 2002. — 366 pp.
3. Weiss, G. Multiagent Systems. A Modern Approach to Distributed Artificial Intelligence / G. Weiss, editor. — Springer Verlag, Berlin, 1996. — 643 pp.
4. Назин А.В. Адаптивный выбор вариантов: Рекуррентные алгоритмы / А.В. Назин, А.С. Позняк. — М.: Наука, 1986. — 288 с.
5. Kaelbling, Leslie. Reinforcement learning: A survey / Leslie Kaelbling, Michael L. Littman, Andrew W. Moore. Journal of Artificial
Intelligence Research. — 1996. — No. 4. — PP. 237–285.
6. Sutton, R. S. Reinforcement Learning: An Introduction / Richard S. Sutton, Andrew G. Barto. — MIT Press, 1998. — 322 pp.
7. Watkins, C.J.C.H. Q-Learning / C.J.C.H. Watkins, P. Dayan // Machine Learning. — Kluwer Academic Publishers, Boston. — 1992. — No. 8. — PP. 279–292.
8. Fudenberg, D. The Theory of Learning in Games / D. Fudenberg, D.K. Levine. — Cambridge, MA: MIT Press, 1998. — 292 pp.
9. Hu, J. Nash Q-learning for general-sum stochastic games / J. Hu, M. P. Wellman // Machine Learning Research. — 2003. — No. 4. — PP. 1039–1069.
10. Puterman, M. L. Markov Decision Processes: Discrete Stochastic Dynamic Programming / M. L. Puterman. — John Wiley & Sons, New York, 2005. — 649 pp.
11. Weinberg, M. Best-Response Multiagent Learning in Non-Stationary Environments / Michael Weinberg, Jeffrey S. Rosenschein // AAMAS’04. — New York, USA. — July 19 — 23, 2004.
12. Greenwald, A. Correlated Q-learning / A. Greenwald, K. Hall // Proceedings of the Twentieth International Conference on Machine Learning. — 2003. — PP. 242–249.
13. Мулен Э. Теория игр с примерами из математической экономики / Э. Мулен. — М.: Мир, 1985. — 200 с.
14. Новиков, Д.А. Рефлексивные игры / Д.А. Новиков, А.Г. Чхартишвили. — М.: СИНТЕГ, 2003. — 149 с.
15. Вазан, М. Стохастическая аппроксимация / М. Вазан. — М.: Мир, 1972. — 295 с.
16. Невельсон, М.Б. Стохастическая оптимизация и рекуррентное оценивание / Невельсон М.Б., Хасьминский Р.З. — М.: Наука, 1972. — 304 с.