| 【中文题名】 | 大规模Markov决策过程基于性能势的并行算法研究与应用 |
| 【英文题名】 | Parallel Algorithms for Large-Scale Markov Decision Processes Based on Performance Potentials |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-3 |
| 【中关键词】 | Markov决策过程,性能势,并行计算,强化学习,神经元动态规划,Rollout算法 |
| 【英关键词】 | Markov decision process,performance potential,parallel computing,reinforcement learning,neuro-dynamic programming,Rollout algorithm,neural network ensemble, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 |
随着科技的发展,在当今社会中,广泛存在着一类复杂的随机动态系统,即离散事件动态系统(DEDS)。Markov决策过程(MDP)是DEDS建模常见的方法,其性能优化问题一直是学者研究的重要方向。Markov性能势理论的提出,为MDP的分析和研究提供了一种新的理论框架。在性能势理论的基础上,我们不仅可以建立基于已知模型参数的理论计算来寻求最优策略,而且可以在模型参数未知时利用基于样本轨道的仿真和在线学习算法来求解。
在实际大规模的Markov系统中,串行执行优化算法的时间往往很长,甚至问题求解不可行。采用并行计算是提高MDP执行效率最直接最有效的一种方式。一方面,并行求解能真正缩减算法的计算时间;另一方面,在MDP仿真优化时,并行仿真不仅能加快收敛速度,还有可能得到更为精确的解。因此MDP并行计算的实现对实际大规模MDP的性能优化具有重要的指导作用,本论文主要对MDP并行算法展开研究,研究内容包括基于性能势的MDP理论迭代算法和仿真优化方法的并行化实现。
对于MDP理论计算的并行化实现,文章给出了并行数值迭代算法,该算法将状态空间划分为若干个状态子空间,每个处理节点只在一个状态子空间上运... |
| 【论文题纲】 |
|
摘要 |
5-7 |
|
ABSTRACT |
7-9 |
|
致谢 |
9-14 |
|
第一章 绪论 |
14-23 |
|
1.1 DEDS、MDP与性能势理论 |
14-16 |
|
1.2 并行计算概括 |
16-20 |
|
1.2.1 并行计算机分类 |
16-18 |
|
1.2.2 并行编程语言和环境 |
18-19 |
|
1.2.3 并行算法设计过程 |
19-20 |
|
1.2.4 并行算法的性能评价 |
20 |
|
1.3 MDP串行和并行算法的研究现状 |
20-21 |
|
1.4 论文的主要工作 |
21-23 |
|
第二章 MDP优化基本理论 |
23-30 |
|
2.1 MDP数学模型 |
23-24 |
|
2.2 MDP优化方法 |
24-30 |
|
2.2.1 基于理论计算的优化方法 |
25-26 |
|
2.2.2 基于强化学习的仿真优化方法 |
26-28 |
|
2.2.3 基于NDP的仿真优化算法 |
28-30 |
|
第三章 并行数值迭代算法 |
30-40 |
|
3.1 引言 |
30 |
|
3.2 并行数值迭代算法的基本框架 |
30-31 |
|
3.3 划分策略 |
31-33 |
|
3.3.1 模型建立 |
31-32 |
|
3.3.2 启发式划分策略 |
32-33 |
|
3.3.3 性能分析 |
33 |
|
3.4 数值例子 |
33-39 |
|
3.5 本章小结 |
39-40 |
|
第四章 并行仿真优化方法 |
40-59 |
|
4.1 并行Q学习算法 |
40-50 |
|
4.1.1 Q学习算法 |
41 |
|
4.1.2 基于并行思想的Q学习算法改进 |
41-44 |
|
4.1.3 算法中主要参数设计 |
44-45 |
|
4.1.3.1 同步策略 |
44-45 |
|
4.1.3.2 Q值构建策略 |
45 |
|
4.1.4 数值例子 |
45-50 |
|
4.2 并行NDP优化算法 |
50-58 |
|
4.2.1 Critic模式下NDP优化方法 |
50-52 |
|
4.2.1.1 性能势TD学习算法 |
50-51 |
|
4.2.1.2 NDP优化算法 |
51-52 |
|
4.2.2 基于神经网络集成的NDP并行优化 |
52-54 |
|
4.2.2.1 神经网络集成 |
52 |
|
4.2.2.2 NDP并行优化方法 |
52-54 |
|
4.2.3 数值例子 |
54-58 |
|
4.3 本章小结 |
58-59 |
|
第五章 在线Rollout仿真算法及并行实现 |
59-70 |
|
5.1 引言 |
59 |
|
5.2 Rollout及其并行求解算法 |
59-61 |
|
5.3 Rollout算法在多类商品库存控制中的应用 |
61-66 |
|
5.3.1 基本假设 |
61 |
|
5.3.2 数学符号 |
61-62 |
|
5.3.3 多类商品库存控制的MDP数学模型 |
62-63 |
|
5.3.4 数值例子 |
63-66 |
|
5.4 Rollout算法在多级仓库库存控制中的应用 |
66-69 |
|
5.4.1 多agent学习研究概况 |
66-67 |
|
5.4.2 多agent MDP数学模型 |
67 |
|
5.4.3 多agent Rollout学习算法 |
67-68 |
|
5.4.4 多级仓库最优库存控制实例 |
68-69 |
|
5.5 本章小结 |
69-70 |
|
第六章 总结与展望 |
70-72 |
|
6.1 总结 |
70-71 |
|
6.2 展望 |
71-72 |
|
参考文献 |
72-77 |
|
攻读硕士学位期间主要科研工作和成果 |
77 |
|
| 【DOI】 | LunWen.ID:2.2008.388769 |