大规模Markov决策过程基于性能势的并行算法研究与应用
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 自动化 >> 自动化基础 >> 正文
大规模Markov决策过程基于性能势的并行算法研究与应用
作者:李豹 Publish: 2007-8-3 Hits:-
【中文题名】 大规模Markov决策过程基于性能势的并行算法研究与应用
【英文题名】 Parallel Algorithms for Large-Scale Markov Decision Processes Based on Performance Potentials
【学科专业】 计算机应用技术
【论文级别】 硕士论文
【投稿时间】 2007-8-3
【中关键词】 Markov决策过程,性能势,并行计算,强化学习,神经元动态规划,Rollout算法
【英关键词】 Markov decision process,performance potential,parallel computing,reinforcement learning,neuro-dynamic programming,Rollout algorithm,neural network ensemble,
【分类导航】 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>>
【论文摘要】  随着科技的发展,在当今社会中,广泛存在着一类复杂的随机动态系统,即离散事件动态系统(DEDS)。Markov决策过程(MDP)是DEDS建模常见的方法,其性能优化问题一直是学者研究的重要方向。Markov性能势理论的提出,为MDP的分析和研究提供了一种新的理论框架。在性能势理论的基础上,我们不仅可以建立基于已知模型参数的理论计算来寻求最优策略,而且可以在模型参数未知时利用基于样本轨道的仿真和在线学习算法来求解。 在实际大规模的Markov系统中,串行执行优化算法的时间往往很长,甚至问题求解不可行。采用并行计算是提高MDP执行效率最直接最有效的一种方式。一方面,并行求解能真正缩减算法的计算时间;另一方面,在MDP仿真优化时,并行仿真不仅能加快收敛速度,还有可能得到更为精确的解。因此MDP并行计算的实现对实际大规模MDP的性能优化具有重要的指导作用,本论文主要对MDP并行算法展开研究,研究内容包括基于性能势的MDP理论迭代算法和仿真优化方法的并行化实现。 对于MDP理论计算的并行化实现,文章给出了并行数值迭代算法,该算法将状态空间划分为若干个状态子空间,每个处理节点只在一个状态子空间上运...
【论文题纲】
摘要 5-7
ABSTRACT 7-9
致谢 9-14
第一章 绪论 14-23
1.1 DEDS、MDP与性能势理论 14-16
1.2 并行计算概括 16-20
1.2.1 并行计算机分类 16-18
1.2.2 并行编程语言和环境 18-19
1.2.3 并行算法设计过程 19-20
1.2.4 并行算法的性能评价 20
1.3 MDP串行和并行算法的研究现状 20-21
1.4 论文的主要工作 21-23
第二章 MDP优化基本理论 23-30
2.1 MDP数学模型 23-24
2.2 MDP优化方法 24-30
2.2.1 基于理论计算的优化方法 25-26
2.2.2 基于强化学习的仿真优化方法 26-28
2.2.3 基于NDP的仿真优化算法 28-30
第三章 并行数值迭代算法 30-40
3.1 引言 30
3.2 并行数值迭代算法的基本框架 30-31
3.3 划分策略 31-33
3.3.1 模型建立 31-32
3.3.2 启发式划分策略 32-33
3.3.3 性能分析 33
3.4 数值例子 33-39
3.5 本章小结 39-40
第四章 并行仿真优化方法 40-59
4.1 并行Q学习算法 40-50
4.1.1 Q学习算法 41
4.1.2 基于并行思想的Q学习算法改进 41-44
4.1.3 算法中主要参数设计 44-45
4.1.3.1 同步策略 44-45
4.1.3.2 Q值构建策略 45
4.1.4 数值例子 45-50
4.2 并行NDP优化算法 50-58
4.2.1 Critic模式下NDP优化方法 50-52
4.2.1.1 性能势TD学习算法 50-51
4.2.1.2 NDP优化算法 51-52
4.2.2 基于神经网络集成的NDP并行优化 52-54
4.2.2.1 神经网络集成 52
4.2.2.2 NDP并行优化方法 52-54
4.2.3 数值例子 54-58
4.3 本章小结 58-59
第五章 在线Rollout仿真算法及并行实现 59-70
5.1 引言 59
5.2 Rollout及其并行求解算法 59-61
5.3 Rollout算法在多类商品库存控制中的应用 61-66
5.3.1 基本假设 61
5.3.2 数学符号 61-62
5.3.3 多类商品库存控制的MDP数学模型 62-63
5.3.4 数值例子 63-66
5.4 Rollout算法在多级仓库库存控制中的应用 66-69
5.4.1 多agent学习研究概况 66-67
5.4.2 多agent MDP数学模型 67
5.4.3 多agent Rollout学习算法 67-68
5.4.4 多级仓库最优库存控制实例 68-69
5.5 本章小结 69-70
第六章 总结与展望 70-72
6.1 总结 70-71
6.2 展望 71-72
参考文献 72-77
攻读硕士学位期间主要科研工作和成果 77
【DOI】 LunWen.ID:2.2008.388769
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:Markov决策过程 论文 性能势 并行计算 强化学习 神经元动态规划 Rollout算法
自动化基础最新论文
自动化基础热门论文