| 【中文题名】 | MAS环境下Agent学习的博弈策略研究 |
| 【英文题名】 | |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-24 |
| 【中关键词】 | MAS,多Agent学习,增强学习,博弈论,纳什均衡, |
| 【英关键词】 | MAS,Game Theory,Nash Equilibrium,Reinforcement Learning, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 |
在MAS(Multi Agent System)环境中活动的Agent总是在一个庞大的、复杂的、开放的、动态的和不可预期的环境中操作。它在任意时刻的最优策略总是依赖于其他Agent所使用的策略集合,因而成为一个学习移动目标的问题。多Agent学习不仅是分布式人工智能和机器学习(Machine Learning,简称ML)的交叉领域,而且是ML和博弈论的交叉领域。
在一个竞争的环境中,一个令人满意的多Agent学习算法至少应该满足理性和收敛性。在满足这两个属性的基础上,在与公正对手进行博弈时,应尽可能的使Agent在博弈中攫取最大收益。目前,有些很好的算法以能够同时满足理性和收敛性,而另一些算法能够在与公正对手的博弈中攫取高额回报,但是却不能二者兼得。
在本文中,我们详细分析了MAS中的学习环境理论模型,简要介绍了多Agent环境中学习算法应具备的属性,并分析了当前一些学者提出的算法。然后,着重考察了简单的两人两动作重复一般和博弈的策略特点,通过动态系统理论的指导,分析了使用逐步策略爬升的Agent的行为,根据S.Singh等人给出的结论,我们提出并证明了在两人两动作博弈中关于双方策略... |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
ABSTRACT |
4-6 |
|
目录 |
6-8 |
|
第一章 绪论 |
8-14 |
|
1.1 研究背景 |
8-9 |
|
1.2 研究现状 |
9-11 |
|
1.3 研究内容 |
11-12 |
|
1.4 论文结构及主要内容 |
12-14 |
|
第二章 多AGENT学习理论综述 |
14-24 |
|
2.1 AGENT的概念及特征 |
14-18 |
|
2.1.1 Agent的定义 |
14-16 |
|
2.1.2 多Agent系统的特性及应用 |
16-18 |
|
2.2 MAS学习框架理论模型 |
18-21 |
|
2.2.1 马尔科夫决策过程(Markov Decision Processes,MDP) |
18 |
|
2.2.2 矩阵博弈(Matrix Games) |
18-20 |
|
2.2.3 随机博弈(Stochastic Games) |
20-21 |
|
2.2.4 MAS学习框架小结 |
21 |
|
2.3 学习算法的属性 |
21-24 |
|
第三章 MAS中AGENF学习的策略分析及算法研究 |
24-36 |
|
3.1 博弈策略的动态性分析 |
24-31 |
|
3.1.1 IGA(Infinitesimal Gradient Ascent)分析 |
24-27 |
|
3.1.2 IGA中策略的性质 |
27-29 |
|
3.1.3 IGA中策略性质的实验验证 |
29-31 |
|
3.2 IGA算法的改造 |
31-34 |
|
3.3 多AGENT学习算法的分类 |
34-36 |
|
第四章 竞争环境中学习算法的预检测机制 |
36-50 |
|
4.1 EXPLOITERWT算法 |
36-39 |
|
4.2 两人两动作博弈的实验与分析 |
39-43 |
|
4.2.1 ExploiterWT算法对抗固定策略 |
39-40 |
|
4.2.2 ExploiterWT算法对抗PHC算法 |
40-41 |
|
4.2.3 ExploiterWT算法自博弈 |
41-42 |
|
4.2.4 ExploiterWT算法对抗WoLF-PHC算法 |
42-43 |
|
4.3 两人三动作博弈的实验与分析 |
43-49 |
|
4.3.1 ExploiterWT算法对抗固定策略 |
44-45 |
|
4.3.2 ExploiterWT算法对抗PHC算法 |
45-46 |
|
4.3.3 ExploiterWT算法自博弈 |
46-47 |
|
4.3.4 ExploiterWT算法对抗WoLF-PHC算法 |
47-49 |
|
4.4 小结 |
49-50 |
|
第五章 总结与展望 |
50-52 |
|
5.1 总结 |
50 |
|
5.2 未来工作展望 |
50-52 |
|
参考文献 |
52-56 |
|
致谢 |
56-57 |
|
附录 (攻读学位期间发表的论文) |
57 |
|
| 【DOI】 | LunWen.ID:2.2008.388827 |