| 【中文题名】 | 基于层次化激励学习的自动任务分解 |
| 【英文题名】 | Autonomous Mission Decomposition Based on Hierarchical Reinforcement Learning |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2006-12-12 |
| 【中关键词】 | 自动任务分解,层次化激励学习,启发式搜索,层次化策略,抽象, |
| 【英关键词】 | autonomous mission decomposition,hierarchical reinforcement learning,heuristic search,hierarchical policy,abstract, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 | 激励学习是随机环境中解决决策问题一种有效的方法。然而,在大状态空间,特别是在复杂随机状态下的应用领域,它仍然没有解决“维数灾难”的问题。目前,层次化激励学习作为激励学习在时间和空间上的扩展,已经被证明比激励学习更适合解决大状态随机控制问题,在机器人导航等方面有着广阔的应用前景。但是,目前的研究基本上是事先对层次化的结构进行设计,自动发现和创建层次化方法的研究仍然不多。本文围绕层次化激励学习的自动任务分解,对以下方面进行了研究和探讨:
介绍了层次化学习的基本理论背景和研究进展,并对三种典型的激励学习算法作了分析比较,分析了它们的各自特点和适用情况,为后面的工作中算法的选择提供了基础。
分别提出了在两种不同环境模型下自动寻找子目标的方法。其中在状态空间较小的简单模型下,针对McGovern学习模型速度较慢的缺点,提出基于改进的Borelzman随机分布的Actor-Critic算法来学习模型;在自动创建子目标时,首先分析已学策略模型的结构特点,提出状态的访问频度变化率的概念,然后提出以访问频度变化率最大的状态作为子目标,并通过仿真实验验证算法效果。
对于复杂模型,提... |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
Abstract |
6-9 |
|
第1章 绪论 |
9-15 |
|
1.1 本课题的研究背景及意义 |
9-10 |
|
1.2 本课题研究领域的研究动态 |
10-12 |
|
1.2.1 层次化学习相关研究进展 |
10-11 |
|
1.2.2 层次化激励学习相关研究进展 |
11-12 |
|
1.3 本文主要研究内容 |
12-13 |
|
1.4 本文的组织结构 |
13-15 |
|
第2章 层次化激励学习理论框架 |
15-29 |
|
2.1 激励学习 |
15-22 |
|
2.1.1 发展背景 |
15-16 |
|
2.1.2 激励学习的基本原理 |
16-18 |
|
2.1.3 学习算法 |
18-20 |
|
2.1.4 函数逼近 |
20-22 |
|
2.2 层次化激励学习理论 |
22-28 |
|
2.2.1 层次化激励学习的基本思想及其发展 |
23-25 |
|
2.2.2 层次化激励学习方法 |
25-28 |
|
2.3 本章小结 |
28-29 |
|
第3章 简单随机模型下自动寻找子目标 |
29-42 |
|
3.1 McGovern的基于多实例学习的自动寻找子任务方法 |
29-31 |
|
3.2 一类简单随机模型下自动寻找子目标的方法 |
31-36 |
|
3.2.1 学习策略模型方法的改进 |
31-33 |
|
3.2.2 自动寻找子目标方法的改进 |
33-36 |
|
3.3 简单模型下自动寻找子目标的仿真实验 |
36-41 |
|
3.3.1 Reinforcement Learning工具箱 |
36-37 |
|
3.3.2 策略模型学习方法的仿真实验 |
37-40 |
|
3.3.3 自动寻找子目标方法的验证 |
40-41 |
|
3.4 本章小结 |
41-42 |
|
第4章 复杂随机模型下自动寻找子目标 |
42-46 |
|
4.1 复杂随机模型下自动创建有效子目标 |
42-44 |
|
4.2 复杂模型下自动创建子目标的仿真实眼 |
44-45 |
|
4.3 本章小结 |
45-46 |
|
第5章 子目标策略的自动形成 |
46-51 |
|
5.1 一类基于启发式策略的激励学习算法 |
46-48 |
|
5.2 自动形成层次化策略 |
48-49 |
|
5.3 仿真实验 |
49-50 |
|
5.4 本章小结 |
50-51 |
|
结论与展望 |
51-53 |
|
参考文献 |
53-57 |
|
致谢 |
57-58 |
|
附录 A (攻读硕士学位期间发表论文目录) |
58-59 |
|
附录 B (攻读硕士学位期间参与研究的科研项目) |
59 |
|
| 【DOI】 | LunWen.ID:2.2008.388200 |