基于语义的信息过滤算法及其应用
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 计算机软件 >> 正文
基于语义的信息过滤算法及其应用
作者:周文刚 Publish: 2007-8-2 Hits:-
【中文题名】 基于语义的信息过滤算法及其应用
【英文题名】 A Semantic-based Algorithm for Information Filtering and Its Applications
【学科专业】 计算机应用技术
【论文级别】 硕士论文
【投稿时间】 2007-8-2
【中关键词】 文本信息过滤,语义框架,分词,代理服务器,内容重现,
【英关键词】 Text Information Filtering,Semantic Frame,Chinese Word Segmentation,Proxy Server,Content Recurrence,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>一般性问题>理论、方法>算法理论
【论文摘要】  在互联网提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环境的重要环节。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义,过滤效果难以满足智能化的要求。 本文结合计算语言学知识,提出并实现了基于语义的信息过滤算法。该算法包括对目标语句分词、词性标注、生成语义框架、计算两语句对应的语义框架间的相似度等关键环节。借助事先构建的词库,使用最大二分分词法,将句子切分成用二叉树表示的词集合;借助语法规则库和分词结果中存储的词性和词在句子中的位置信息,区分出关键字(主谓宾),填充语义框架;按照给定的距离函数和词语相似度计算规则,计算框架间的相似度;根据相似度是否大于阈值决定过滤与否。 此算法将两语句语义相似程度的比较操作转换成了数学计算,量化了语句间的语义相似度。试验表明,其过滤效果较传统算法在语义对应层次上有较大提高。 代理服务器在Intranet管理中具有重要作用。本文实现了HTTP代理服务器,借助它,在应用层实现了对Web页内容的语义过滤。并且,通过将...
【论文题纲】
摘要 4-5
Abstract 5-10
1 引言 10-17
1.1 研究价值 10
1.2 国内外研究现状及水平 10-14
1.2.1 应用在防火墙软件中过滤算法现状及水平 10-11
1.2.2 基于语义分析的倾向性内容过滤 11-14
1.2.3 国内常见内容过滤软件的性能 14
1.3 研究内容和实施方案 14-15
1.3.1 研究内容 14-15
1.3.2 实施方案 15
1.4 本文的内容安排 15-17
2 网络安全对内容过滤的需求 17-21
2.1 网络访问中的过滤需求 17-18
2.2 网络访问内容过滤技术 18-19
2.2.1 网络的传媒特点和过滤实现的困难 18-19
2.2.2 解决内容过滤的不同技术 19
2.3 网络访问内容过滤的现状 19-21
2.3.1 国内内容过滤产品 19-20
2.3.2 国外常用的过滤软件 20-21
3 应用在网络访问中的过滤技术 21-31
3.1 网络层上的包过滤技术 21-26
3.1.1 网络数据包截获的基本方法 21-22
3.1.2 利用 NDIS与 HOOK技术在网络层实现包捕获与包过滤 22-25
3.1.3 WinpCap—网络数据包捕获开发包 25-26
3.2 应用层上的内容过滤技术 26-28
3.2.1 HTTP包的重组与过滤 26-27
3.2.2 SMTP包的重组与过滤 27-28
3.3 内容过滤算法 28-30
3.3.1 不良信息的非正常表现形式 28
3.3.2 文本信息过滤 28-30
3.3.3 图像内容过滤 30
3.4 多层过滤 30-31
4 计算语言学—文本信息语义过滤的理论基础 31-42
4.1 计算语言学的应用范围及其发展历史、现状 31-32
4.2 对汉语进行计算机理解的特殊困难 32-33
4.3 格语法知识 33-34
4.4 汉语分词 34-36
4.4.1 分词的困难及其在语义过滤应用中的对策 34-35
4.4.2 分词的规范 35
4.4.3 常用分词方法 35-36
4.5 词性自动标注 36-37
4.6 词义消歧 37-38
4.7 词语相似度计算 38-41
4.8 进行语义分析的基本步骤 41-42
5 基于语义的文本信息过滤算法 42-52
5.1 传统过滤算法分析 42-43
5.2 基于语义的文本信息过滤算法 43-50
5.2.1 与语义有关的语言学概念 43-44
5.2.2 基于语义的框架数据结构 44
5.2.3 框架填充距离函数和框架匹配权重 44-45
5.2.4 分词与词语间相似度计算 45-49
5.2.5 框架匹配机制 49
5.2.6 基于语义的文本信息过滤算法描述 49-50
5.3 应用于应用层上的网页过滤 50-51
5.3.1 基于 HTTP代理服务器的实现 50
5.3.2 基于 COM技术的实现 50-51
5.4 试验结果分析及结论 51-52
6 通过代理服务器实现 Web访问的内容过滤与重现 52-62
6.1 代理服务器的实现原理 52-53
6.2 代理服务器的作用 53-54
6.3 基于代理的 Web访问内容过滤与重现 54-62
6.3.1 Web内容过滤的现状 54
6.3.2 HTTP协议分析与 Web页访问处理流程 54-55
6.3.3 具有过滤功能的代理服务器 55-58
6.3.3.1 代理服务器的作用与工作流程 55-56
6.3.3.2 过滤模块设计 56-58
6.3.4 基于代理的网络访问内容重现算法 58-59
6.3.5 在内容重现的基础上改进代理技术 59
6.3.6 用 VC++实现 Web访问内容过滤与重现 59-61
6.3.7 试验结果分析及结论 61-62
7 SemanticFR系统的功能、结构和实现 62-77
7.1 SemanticFR系统的功能 62-63
7.2 SemanticFR系统结构及各模块的功能 63-66
7.2.1 主控制模块 65
7.2.2 网络数据包过滤模块 65
7.2.3 流量监控模块 65
7.2.4 代理模块 65
7.2.5 内容重现模块 65-66
7.2.6 访问控制模块 66
7.3 SemanticFR使用的技术 66-68
7.3.1 利用内存映射文件实现数据在进程间共享和快速读写 66-68
7.4 SemanticFR系统的实现及性能分析 68-75
7.4.1 数据准备 68-70
7.4.2 主控制模块 70
7.4.3 流量监控 70-71
7.4.4 包过滤的设置和实现 71-72
7.4.5 代理模块 72-74
7.4.6 基于语义的 Web页内容过滤模块 74-75
7.5 SemanticFR系统的性能分析 75-77
7.5.1 包监控和包过滤性能分析 75
7.5.2 基于语义的过滤性能分析 75-76
7.5.3 内容重现性能分析 76-77
结论 77-78
1、创新点 77
2、不足之处与今后的工作 77-78
参考文献 78-85
在学研究成果 85-86
致谢 86
【DOI】 LunWen.ID:2.2008.360041
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:文本信息过滤 论文 语义框架 分词 代理服务器 内容重现
计算机软件最新论文
计算机软件热门论文