| 【中文题名】 | 基于支持向量技术的Agent强化学习研究与应用 |
| 【英文题名】 | The Research and Application of Reinforcement Learning Based on Support Vector Machine(SVM) |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-3 |
| 【中关键词】 | 多Agent系统,RoboCup,支持向量,强化学习,, |
| 【英关键词】 | MAS,RoboCup,Support Vector Machine,Reinforcement Learning, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 |
支持向量机(SVM)是基于统计学习理论的一种机器学习方法,它具有全局最优解和良好的泛化性能等优点。强化学习是一种无监督的机器学习技术,能够利用不确定的环境下Agent所获得的奖赏来发现最优的行为序列,因此被广泛用于Agent的智能决策。但标准的强化学习算法不能适用于连续状态空间和动作空间的学习。本文针对RoboCup中的具体问题,一方面通过支持向量回归方法来解决RoboCup中球员截球问题,一方面在强化学习中引入支持向量分类技术来解决强化学习中连续状态表示问题,使其适用于RoboCup复杂环境下的Agent智能决策。本文的主要研究工作如下:
(1)针对RoboCup中截球问题引入了支持向量回归方法,它通过采集样本训练预测模型来预测agent成功截到球时球运动过的距离。为了达到更好的预测效果,对此模型的参数选择问题进行了相应的研究。最后将此预测模型与广义回归神经网络等传统方法相比较,结果表明在截球距离的预测精度方面要优于传统的广义回归神经网络。
(2)针对RoboCup中强化学习的连续状态表示问题,提出一种新的基于SVM分类的强化学习系统,其基本思想是通过SVM良好的泛化性能,先将整个... |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
ABSTRACT |
6-11 |
|
第一章 绪论 |
11-20 |
|
1.1 引言 |
11 |
|
1.2 AGENT技术概述 |
11-15 |
|
1.2.1 Agent概念 |
11-12 |
|
1.2.2 Agent属性 |
12-13 |
|
1.2.3 Agent结构 |
13-14 |
|
1.2.4 多Agent系统 |
14-15 |
|
1.3 ROBOCUP简介 |
15-18 |
|
1.3.1 起源及意义 |
15-17 |
|
1.3.2 RoboCup仿真组比赛 |
17 |
|
1.3.3 当前研究状况 |
17-18 |
|
1.4 本文结构 |
18-20 |
|
第二章 基本理论 |
20-32 |
|
2.1 统计学习与支持向量机 |
20-24 |
|
2.1.1 统计学习理论 |
20-22 |
|
2.1.2 支持向量机 |
22-23 |
|
2.1.3 支持向量机回归 |
23-24 |
|
2.2 强化学习 |
24-28 |
|
2.2.1 强化学习原理 |
24-25 |
|
2.2.2 强化学习中的几个关键问题 |
25-26 |
|
2.2.3 经典的强化学习算法 |
26-28 |
|
2.3 多AGENT强化学习 |
28-30 |
|
2.3.1 合作型多Agent强化学习 |
29 |
|
2.3.2 竞争型多Agent强化学习 |
29 |
|
2.3.3 半竞争型多Agent强化学习 |
29-30 |
|
2.4 支持向量和强化学习结合技术的研究 |
30-31 |
|
2.5 本章小节 |
31-32 |
|
第三章 支持向量回归在ROBOCUP截球技术中的应用 |
32-38 |
|
3.1 截球问题背景介绍 |
32 |
|
3.2 截球问题及其算法 |
32-34 |
|
3.2.1 截球问题 |
32-33 |
|
3.2.2 算法描述 |
33-34 |
|
3.3 仿真实验 |
34-37 |
|
3.3.1 评价标准 |
34 |
|
3.3.2 样本采集 |
34-35 |
|
3.3.3 学习参数的确定 |
35-36 |
|
3.3.4 实验结果 |
36-37 |
|
3.4 本章小结 |
37-38 |
|
第四章 基于支持向量分类的强化学习模型 |
38-44 |
|
4.1 引言 |
38 |
|
4.2 基于SVM分类的强化学习系统 |
38-41 |
|
4.2.1 输入模块 |
39 |
|
4.2.2 状态划分模块 |
39-40 |
|
4.2.3 状态泛化模块 |
40 |
|
4.2.4 动作决策模块 |
40-41 |
|
4.3 过人问题描述以及建模 |
41-42 |
|
4.4 实验及其结果分析 |
42-43 |
|
4.5 本章小结 |
43-44 |
|
第五章 结束语 |
44-46 |
|
5.1 本文工作总结 |
44 |
|
5.2 下一步工作展望 |
44-46 |
|
参考文献 |
46-49 |
|
参与科研项目 |
49 |
|
研究生期间发表论文情况 |
49 |
|
| 【DOI】 | LunWen.ID:2.2008.388770 |