| 【中文题名】 | 中文网页褒贬倾向性分类研究 |
| 【英文题名】 | |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2006-10-10 |
| 【中关键词】 | 领域词典构建,褒贬特征提取,褒贬评价模型,褒贬倾向性分类,KNN, |
| 【英关键词】 | constructing appraisive dictionary,appraisive feature extracting (AFT),appraisive evaluation model,appraisive orientable categorization,KNN, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题 |
| 【论文摘要】 | 文本自动分类是一种有效的信息处理方法,广泛应用于信息检索、信息过滤、信息管理、数据组织等领域。随着计算机和网络通信技术的发展,Internet迅速成为海量的、动态的全球信息服务中心,如何在浩若烟海而又纷繁芜杂的Web文档中掌握最有效的信息成为信息处理技术遇到的新的挑战。Web文本自动分类技术是目前Web数据挖掘的研究热点之一,它能够有效地组织和管理Web资源,提高信息检索的效率。网页自动分类技术与主题搜索、个性化信息检索、信息过滤、信息主动推送服务等技术相结合,可以有效地提高了信息服务的质量。
传统的Web文本分类是根据网页所涉及的主题来进行分类,如将网页分为政治类、军事类、经济类等等,而根据网页中作者对所描述内容的看法、观点等主观感情色彩进行分类的研究较少,我们称后者为情感分类。网页内容的褒贬性就是明显反映作者观点、态度的感情色彩之一,网页褒贬倾向性分类是未来多角度、立体性、个性化文本分类的研究内容之一。
本文探讨了网页褒贬色彩的客观性和褒贬倾向性分类的可行性,提出了名人网页褒贬感情色彩的综合评价方法。作者通过构建褒贬义词典和褒贬评价模板,提取出网页文本中具有情感取向的褒义词... |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
Abstract |
4-6 |
|
目录 |
6-8 |
|
第一章 绪论 |
8-12 |
|
1.1 研究背景 |
8-9 |
|
1.2 研究内容 |
9-10 |
|
1.3 本文的主要工作及组织结构 |
10-12 |
|
第二章 文本自动分类 |
12-17 |
|
2.1 文本自动分类的概念 |
12-13 |
|
2.2 文本自动分类的实现方法 |
13-15 |
|
2.2.1 分类任务描述 |
13 |
|
2.2.2 分类过程 |
13-14 |
|
2.2.3 分类算法 |
14-15 |
|
2.3 分类结果的性能评价方法 |
15-17 |
|
第三章 中文网页分类中的关键问题 |
17-27 |
|
3.1 中文网页的特点 |
17-18 |
|
3.2 中文分词 |
18-19 |
|
3.3 网页文本表示方法 |
19-22 |
|
3.3.1 文本特征表示原则 |
19-20 |
|
3.3.2 文本特征表示模型 |
20-21 |
|
3.2.3 特征项的权重计算方法 |
21-22 |
|
3.4 特征向量维数压缩 |
22-25 |
|
3.4.1 特征选择 |
22-24 |
|
3.4.2 特征抽取 |
24-25 |
|
3.5 分类算法 |
25-27 |
|
第四章 名人网页的褒贬评价 |
27-38 |
|
4.1 网页的褒贬倾向性分析 |
27-28 |
|
4.2 褒贬评价资源的构建 |
28-30 |
|
4.3 网页内容的褒贬评价 |
30-37 |
|
4.3.1 褒贬特征识别 |
30-33 |
|
4.3.2 褒贬评价模型 |
33-35 |
|
4.3.3 褒贬评价实验 |
35-37 |
|
4.4 改进方向 |
37-38 |
|
第五章 名人网页褒贬倾向性分类 |
38-50 |
|
5.1 分类工作基本原理 |
38-39 |
|
5.2 LSI和kNN相结合的褒贬分类模型 |
39-43 |
|
5.2.1 潜在语义索引 |
39-41 |
|
5.2.2 文本相似度计算 |
41 |
|
5.2.3 特征提取 |
41-42 |
|
5.2.3 分类算法描述 |
42-43 |
|
5.3 分类实现 |
43-48 |
|
5.3.1 实验数据集说明 |
43-44 |
|
5.3.2 特征选择实验对比 |
44-46 |
|
5.3.3 分类算法实验对比 |
46-48 |
|
5.4 进一步工作 |
48-50 |
|
第六章 总结与展望 |
50-51 |
|
附录 |
51-54 |
|
附录1: 基本褒贬义词典(部分) |
51-52 |
|
附录2: 结构化模板 |
52-53 |
|
附录3: 中分分词词性标记 |
53-54 |
|
参考文献 |
54-58 |
|
攻读硕士期间发表的论文 |
58-59 |
|
致谢 |
59 |
|
| 【DOI】 | LunWen.ID:2.2008.364728 |