| 【中文题名】 | 数据分类及其在中国经济区域划分问题上的应用 |
| 【英文题名】 | |
| 【学科专业】 | 概率论与数理统计 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2003-7-7 |
| 【中关键词】 | 类数,分类误差,AIC_g,AIC_AR,经济区域划分, |
| 【英关键词】 | the number of groups,grouping error,AIC_g AIC_AR,economic zone planning, |
| 【分类导航】 | 经济>经济计划与管理>经济计算、经济数学方法>经济数学方法>概率论与数理统计在经济中的应用> |
| 【论文摘要】 |
这篇论文主要研究的是数据分类问题以及其在实践中的应用。本文主要借鉴了模型定阶中常用的AIC方法以及用来进行分类的聚类分析方法中的优点和欠缺,着眼于数据分类时类的个数如何确定这一问题进行探讨。本文汲取了系统聚类法中通过定义距离或相似系数并以其大小将对象进行分类的基本思想,将之与有序样本情况下的最优分割法相结合,吸收了系统聚类法的直观性和最优分割法的简捷性及可以求出精确最优解的良好性质,在存在历史数据的条件下,假设同类数据来自于同一分布,历史数据相应的来自该分布。这样,由于每个类内离差平方和为该数据所属分布的方差的相合且无偏的估计的倍数,故如果分类合理,则由待分数据得到的离差平方和应与由历史数据得到的离差平方和相接近。因此,定义了分类误差这个判断标准,取分类误差最小时类的个数和分类的方法为最佳的数据分类方法,从而弥补了凭借主观经验决定类数的不合理性。在AIC准则思想的启发下,将应该同属于一个分类的数据看作是在某一分布中抽取的样本,从而通过求Kullback-Leibler信息量的渐近无偏估计而达到确定类数与数据分类的目的。有感于实际情况中数据量的大小不等,存在着不满足大样本条件但是却有大量历史数据的待分数... |
| 【论文题纲】 |
|
中文摘要 |
4-5 |
|
英文摘要 |
5-6 |
|
目录 |
6-7 |
|
引言 |
7-9 |
|
正文 |
9-24 |
|
§1. 预备知识 |
9-12 |
|
§1.1. 聚类分析 |
9-10 |
|
§1.2. AIC准则 |
10-12 |
|
§2. 改进聚类分析方法:分类误差法 |
12-14 |
|
§3. AIC方法应用于数据分类 |
14-19 |
|
§3.1. 分布的自由参数个数已知的AIC:AIC_g |
14-17 |
|
§3.2. 分布的自由参数个数已知的AIC:AIC_(AR) |
17-19 |
|
§4. 应用:中国经济区域的划分 |
19-24 |
|
参考文献 |
24-26 |
|
附录 |
26-33 |
|
后记 |
33-34 |
|
致谢 |
34 |
|
| 【DOI】 | LunWen.ID:2.2008.15907 |