| 【中文题名】 | 基于强化学习的模糊神经网络控制研究及应用 |
| 【英文题名】 | Study of Fuzzy Neural Network Control Based on Reinforcement Learning and Its Application |
| 【学科专业】 | 控制理论与控制工程 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-7-23 |
| 【中关键词】 | 模糊神经网络,强化学习,非线性系统,,, |
| 【英关键词】 | Fuzzy Neural Network,Reinforcement Learning,Nonlinear System, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>人工神经网络与计算> |
| 【论文摘要】 |
本文研究了利用强化学习自动调节模糊神经网络的结构问题。应用强化学习算法,可以根据每条规则的推理强度度量其在调节系统中所起的作用,最终确定每条模糊规则的取舍,仿真结果表明,在实时系统中这种方式比模糊K均值聚类和自组织竞争神经网络等传统辨识方法具有更好的适应性。在此基础上,本文提出了两种提高调节品质的方法:在建立规则时,将强化学习的智能试探功能用于模糊控制规则的搜索,提高生成规则的质量;删除无用规则时,采用逐步减少隶属函数宽度的方法加强调节系统的稳定性,最后通过仿真证明算法的有效性。 |
| 【论文题纲】 |
|
中文摘要 |
3 |
|
英文摘要 |
3-6 |
|
第一章 绪论 |
6-16 |
|
1.1 研究背景及意义 |
6-8 |
|
1.2 模糊神经网络 |
8-11 |
|
1.2.1 模糊神经网络的发展及现状 |
8-10 |
|
1.2.2 模糊神经网络的发展前景 |
10-11 |
|
1.3 强化学习 |
11-14 |
|
1.3.1 强化学习的发展及现状 |
11-13 |
|
1.3.2 强化学习的研究进展及有待解决的问题 |
13-14 |
|
1.4 论文主要工作内容及结构安排 |
14-16 |
|
第二章 强化学习 |
16-31 |
|
2.1 强化学习的特点 |
16-17 |
|
2.2 马尔可夫决策过程模型(MDP) |
17-19 |
|
2.3 动态规划(Dynamic Programming)法 |
19-20 |
|
2.4 蒙特卡洛算法(Monte Carlo) |
20-21 |
|
2.5 即时差分学习 TD(Temporal Difference Learning) |
21-24 |
|
2.6 Q学习算法 |
24-26 |
|
2.6.1 Q学习算法的迭代公式 |
24-26 |
|
2.6.2 Q学习的动作选择机制 |
26 |
|
2.7 自适应启发评价算法(Adaptive heuristic critic algorithm) |
26-29 |
|
2.7.1 离散动作 AHC算法(The AHC algorithm for discrete actions) |
27-28 |
|
2.7.2 连续动作的 AHC算法(The AHC algorithms for continuous actions) |
28-29 |
|
2.8 Sarsa算法 |
29 |
|
2.9 Dyna算法 |
29-30 |
|
2.10 本章小结 |
30-31 |
|
第三章 模糊神经网络 |
31-50 |
|
3.1 模糊推理的理论基础 |
31-32 |
|
3.1.1 模糊集合 |
31 |
|
3.1.2 模糊关系 |
31-32 |
|
3.1.2.1 模糊关系的定义 |
31-32 |
|
3.1.2.2 模糊关系的运算 |
32 |
|
3.1.3 隶属函数的建立 |
32 |
|
3.2 模糊推理 |
32-34 |
|
3.2.1 模糊条件语句 |
32-33 |
|
3.2.2 模糊推理系统 |
33-34 |
|
3.3 模糊逻辑控制系统 |
34-37 |
|
3.3.1 模糊逻辑控制 |
34-35 |
|
3.3.2 模糊系统模型 |
35-37 |
|
3.4 神经网络理论基础 |
37-42 |
|
3.4.1 人工神经元模型 |
38 |
|
3.4.2 神经网络的学习方法 |
38-40 |
|
3.4.2.1 学习机理 |
38-39 |
|
3.4.2.2 学习方法(训练方法) |
39 |
|
3.4.2.3 学习规则 |
39-40 |
|
3.4.3 多层前向神经网络模型 |
40-42 |
|
3.4.3.1 BP算法的原理 |
40-41 |
|
3.4.3.2 BP算法的数学表达 |
41-42 |
|
3.5 模糊神经网络理论基础 |
42-47 |
|
3.5.1 神经网络与模糊系统的比较 |
42-43 |
|
3.5.2 神经网络与模糊技术的融合 |
43 |
|
3.5.3 模糊神经网络的结构与算法 |
43-45 |
|
3.5.4 模糊神经网络控制器的学习算法 |
45-47 |
|
3.6 模糊神经网络结构优化的两种方法 |
47-49 |
|
3.6.1 自组织竞争神经网络 |
47-48 |
|
3.6.2 模糊C-平均法 |
48-49 |
|
3.7 本章小结 |
49-50 |
|
第四章 基于强化学习的动态模糊神经网络控制 |
50-63 |
|
4.1 引言 |
50 |
|
4.2 模糊神经网络的结构辨识 |
50-51 |
|
4.3 基于强化学习的动态模糊神经网络控制 |
51-54 |
|
4.3.1 模糊控制规则的产生 |
51-53 |
|
4.3.1.1 ε-Completeness准则 |
51-52 |
|
4.3.1.2 时间差分偏差标准 |
52-53 |
|
4.3.2 修剪不满意和冗余的规则 |
53-54 |
|
4.4 模糊隶属函数的修改 |
54 |
|
4.5 实验仿真 |
54-62 |
|
4.6 本章小结 |
62-63 |
|
第五章 结论与展望 |
63-65 |
|
参考文献 |
65-69 |
|
致谢 |
69-70 |
|
在学校期间发表论文及参加科研情况 |
70 |
|
| 【DOI】 | LunWen.ID:2.2008.388659 |