突发事件语料噪声排除与网页去重方法研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 互联网技术 >> 正文
突发事件语料噪声排除与网页去重方法研究
作者:罗永莲 Publish: 2005-8-31 Hits:-
【中文题名】 突发事件语料噪声排除与网页去重方法研究
【英文题名】 Research on Noise Reduction and Duplicated Webpages Deletion Method for Accident News Corpus
【学科专业】 计算机应用技术
【论文级别】 硕士论文
【投稿时间】 2005-8-31
【中关键词】 突发事件,新闻语料库排除噪声,网页去重,权值计算,,
【英关键词】 accidental event,news corpus,noise reduction,duplicated web pages removal,weight calculating,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题
【论文摘要】 对于新闻网页来说,所应提取的是网页的主题内容,而网页除了主题内容之外,还包括大量噪声。通常网页中的噪声和网页的主题内容是统一在HTML所构建的网页结构当中。由于HTML语言是一种直观表示的语言,关于网页内容结构的信息在编辑工作完成之后很难还原出来。但我们也发现网页中包含有丰富的Html标记,突发事件新闻也有其自身的特点,因此,我们在前人的研究基础上,挖掘web页面结构特征、充分利用Html标记与突发事件新闻特征,重点从web页面编者对文本修饰角度出发,对web页面的标题、正文与发布日期等内容提取进行了尝试性研究。 网页检索结果中,用户经常会得到内容相同的冗余页面,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。本文依据突发事件时间性(易碎性),按发布日期分“群”,在噪声排除的基础上,从特定区域抽取信息进行网页去重,从而很大程度地缩小了计算时间,提高了去重准确性。 在经典TFIDF(Term Frequency Inverse Document Frequency)权重计算方法的基础上,通过分析事件新闻网页的重复特点,以及不同的特征单元...
【论文题纲】
引言 11-12
第一章 研究的意义与国内外动态 12-15
1.1 研究的意义 12
1.2 国内外研究动态 12-13
1.3 本文的组织 13-15
第二章 突发事件新闻网页要素提取 15-28
2.1 突发事件新闻特点分析与表示方法 15-17
2.1.1 Web页面特点 15
2.1.2 网络新闻的特征 15-16
2.1.3 突发事件新闻文档分析 16-17
2.1.4 Web新闻的表示 17
2.2 新闻网页获取 17
2.3 突发事件新闻标题抽取 17-21
2.3.1 新闻网页标题特点 17-18
2.3.2 新闻网页标题结构分析 18-20
2.3.3 标题抽取算法 20-21
2.4 新闻主题内容抽取 21-25
2.4.1 新闻网页的结构特征 21-22
2.4.2 新闻主题内容结构分析 22-23
2.4.3 基于网页分割的噪声排除与主题内容抽取 23
2.4.4 相关工作 23
2.4.5 向量模型与文本表示 23-24
2.4.6 算法实现 24-25
2.5 标题与主题内容抽取结果评价 25-26
2.6 发布日期抽取 26-28
2.6.1 新闻网页发布时间结构分析 26-27
2.6.2 发布日期抽取过程 27-28
第三章 新闻网页去重方法 28-38
3.1 网页的重复特点 28
3.2 现有去重方法简介 28-29
3.3 基于发布日期的网页去重 29-30
3.4 抽取特征的区域 30-31
3.5 特征单元的确定 31-32
3.6 权重计算 32-34
3.7 特征选择方法 34-36
3.8 重复网页判定 36-37
3.9 网页去重算法实现 37-38
第四章 试验模型设计与试验结果 38-44
4.1 试验模型 38
4.2 试验评估方法 38-40
4.3 试验结果 40-43
4.4 试验结果分析 43-44
第五章 结束语 44-45
参考文献 45-48
致谢 48-49
附录 A学习期间发表论文情况 49-50
【DOI】 LunWen.ID:2.2008.371381
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:突发事件 论文 新闻语料库排除噪声 网页去重 权值计算
互联网技术最新论文
互联网技术热门论文