| 【中文题名】 | 基于强化学习的足球机器人决策系统设计 |
| 【英文题名】 | |
| 【学科专业】 | 控制理论与控制工程 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-10-16 |
| 【中关键词】 | 足球机器人,多智能体,Q学习,模糊聚类,两层模型, |
| 【英关键词】 | Robot Soccer,Multi-agent,Q-learning,dual model,fuzzy-clustering, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化技术及设备>机器人技术>机器人>智能机器人 |
| 【论文摘要】 |
足球机器人是当前机器人研究中的一个热点,涉及机器人学、人工智能、智能控制、计算机视觉等多个领域。决策系统作为整个足球机器人系统的核心,决定了机器人间的协调协作,是机器人的“大脑”。因此,决策系统的研究在多机器人、多智能体领域具有十分重要的意义。
本论文以足球机器人Mirosot 5v5仿真比赛为研究对象,针对传统的决策模型很难满足足球机器人系统在反应性、适应性、智能性和学习能力等方面的要求,提出一种基于改进O学习的足球机器人两层协作模型。该模型把整个决策系统分为上下两层:协调层和运动控制层。
上层协调层针对普通Q学习在环境状态复杂的情况下收敛速度较慢的缺点,通过分析足球机器人比赛的特性,采用模糊聚类的方法把数量众多的系统状态转化为为数不多的模糊状态,从而大大减少了Q学习的状态空间,提高了算法的收敛速度;同时,针对普通Q学习算法易收敛到局部最优,本文通过分析Q学习算法中三个关键参数(学习率α、折扣因子γ和温度值T)的作用,提出一种自适应Q学习算法,动态地调整这三个参数,从而实现系统全局最优动作。
下层运动控制层,取代传统的机器人作为上层意图的简单执行方法,将下层机器人的控制设计... |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
ABSTRACT |
4-8 |
|
第一章 绪论 |
8-13 |
|
1.1 研究背景与研究意义 |
8-9 |
|
1.2 国内外研究现状 |
9-12 |
|
1.3 论文主要内容及构成 |
12-13 |
|
第二章 足球机器人系统 |
13-23 |
|
2.1 实物足球机器人比赛系统 |
13-15 |
|
2.2 足球机器人仿真比赛系统 |
15-22 |
|
2.2.1 Robot Soccer v1.5a仿真平台介绍 |
16 |
|
2.2.2 5vs5仿真平台的运动模型 |
16-20 |
|
2.2.3 基于Robot Soccer v1.5a编程开发的向导 |
20-22 |
|
2.3 小结 |
22-23 |
|
第三章 决策系统总体结构及其强化学习算法 |
23-35 |
|
3.1 决策系统设计要求 |
23-24 |
|
3.2 决策系统总体结构 |
24-25 |
|
3.3 下层智能体结构的选择 |
25-29 |
|
3.3.1 Agent的定义 |
26 |
|
3.3.2 Agent的体系结构 |
26-29 |
|
3.4 协调层强化学习算法选择 |
29-34 |
|
3.4.1 强化学习概念和原理 |
29-30 |
|
3.4.2 强化学习系统的组成要素 |
30-31 |
|
3.4.3 强化学习分类 |
31-32 |
|
3.4.4 TD学习算法 |
32 |
|
3.4.5 Q学习算法 |
32-34 |
|
3.5 小结 |
34-35 |
|
第四章 基于改进Q学习的决策算法 |
35-57 |
|
4.1 决策方式 |
35-37 |
|
4.2 Q学习算法改进 |
37-40 |
|
4.3 基于改进Q学习的协调层设计 |
40-48 |
|
4.3.1 基于Q学习的策略选择模块 |
41-46 |
|
4.3.2 角色分配模块的设计 |
46-48 |
|
4.4 运动控制层设计 |
48-56 |
|
4.5 小结 |
56-57 |
|
第五章 软件实现与效果分析 |
57-64 |
|
5.1 软件设计目标 |
57 |
|
5.2 软件设计 |
57-61 |
|
5.3 仿真实验与分析 |
61-63 |
|
5.4 小结 |
63-64 |
|
第六章 结论与展望 |
64-67 |
|
6.1 结论 |
64-65 |
|
6.2 展望 |
65-67 |
|
参考文献 |
67-72 |
|
致谢 |
72-73 |
|
攻读学位期间主要的研究成果 |
73 |
|
| 【DOI】 | LunWen.ID:2.2008.386038 |