| 【中文题名】 | 基于语义的信息过滤算法及其应用 |
| 【英文题名】 | A Semantic-based Algorithm for Information Filtering and Its Applications |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-2 |
| 【中关键词】 | 文本信息过滤,语义框架,分词,代理服务器,内容重现, |
| 【英关键词】 | Text Information Filtering,Semantic Frame,Chinese Word Segmentation,Proxy Server,Content Recurrence, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>一般性问题>理论、方法>算法理论 |
| 【论文摘要】 |
在互联网提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环境的重要环节。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义,过滤效果难以满足智能化的要求。
本文结合计算语言学知识,提出并实现了基于语义的信息过滤算法。该算法包括对目标语句分词、词性标注、生成语义框架、计算两语句对应的语义框架间的相似度等关键环节。借助事先构建的词库,使用最大二分分词法,将句子切分成用二叉树表示的词集合;借助语法规则库和分词结果中存储的词性和词在句子中的位置信息,区分出关键字(主谓宾),填充语义框架;按照给定的距离函数和词语相似度计算规则,计算框架间的相似度;根据相似度是否大于阈值决定过滤与否。
此算法将两语句语义相似程度的比较操作转换成了数学计算,量化了语句间的语义相似度。试验表明,其过滤效果较传统算法在语义对应层次上有较大提高。
代理服务器在Intranet管理中具有重要作用。本文实现了HTTP代理服务器,借助它,在应用层实现了对Web页内容的语义过滤。并且,通过将... |
| 【论文题纲】 |
|
摘要 |
4-5 |
|
Abstract |
5-10 |
|
1 引言 |
10-17 |
|
1.1 研究价值 |
10 |
|
1.2 国内外研究现状及水平 |
10-14 |
|
1.2.1 应用在防火墙软件中过滤算法现状及水平 |
10-11 |
|
1.2.2 基于语义分析的倾向性内容过滤 |
11-14 |
|
1.2.3 国内常见内容过滤软件的性能 |
14 |
|
1.3 研究内容和实施方案 |
14-15 |
|
1.3.1 研究内容 |
14-15 |
|
1.3.2 实施方案 |
15 |
|
1.4 本文的内容安排 |
15-17 |
|
2 网络安全对内容过滤的需求 |
17-21 |
|
2.1 网络访问中的过滤需求 |
17-18 |
|
2.2 网络访问内容过滤技术 |
18-19 |
|
2.2.1 网络的传媒特点和过滤实现的困难 |
18-19 |
|
2.2.2 解决内容过滤的不同技术 |
19 |
|
2.3 网络访问内容过滤的现状 |
19-21 |
|
2.3.1 国内内容过滤产品 |
19-20 |
|
2.3.2 国外常用的过滤软件 |
20-21 |
|
3 应用在网络访问中的过滤技术 |
21-31 |
|
3.1 网络层上的包过滤技术 |
21-26 |
|
3.1.1 网络数据包截获的基本方法 |
21-22 |
|
3.1.2 利用 NDIS与 HOOK技术在网络层实现包捕获与包过滤 |
22-25 |
|
3.1.3 WinpCap—网络数据包捕获开发包 |
25-26 |
|
3.2 应用层上的内容过滤技术 |
26-28 |
|
3.2.1 HTTP包的重组与过滤 |
26-27 |
|
3.2.2 SMTP包的重组与过滤 |
27-28 |
|
3.3 内容过滤算法 |
28-30 |
|
3.3.1 不良信息的非正常表现形式 |
28 |
|
3.3.2 文本信息过滤 |
28-30 |
|
3.3.3 图像内容过滤 |
30 |
|
3.4 多层过滤 |
30-31 |
|
4 计算语言学—文本信息语义过滤的理论基础 |
31-42 |
|
4.1 计算语言学的应用范围及其发展历史、现状 |
31-32 |
|
4.2 对汉语进行计算机理解的特殊困难 |
32-33 |
|
4.3 格语法知识 |
33-34 |
|
4.4 汉语分词 |
34-36 |
|
4.4.1 分词的困难及其在语义过滤应用中的对策 |
34-35 |
|
4.4.2 分词的规范 |
35 |
|
4.4.3 常用分词方法 |
35-36 |
|
4.5 词性自动标注 |
36-37 |
|
4.6 词义消歧 |
37-38 |
|
4.7 词语相似度计算 |
38-41 |
|
4.8 进行语义分析的基本步骤 |
41-42 |
|
5 基于语义的文本信息过滤算法 |
42-52 |
|
5.1 传统过滤算法分析 |
42-43 |
|
5.2 基于语义的文本信息过滤算法 |
43-50 |
|
5.2.1 与语义有关的语言学概念 |
43-44 |
|
5.2.2 基于语义的框架数据结构 |
44 |
|
5.2.3 框架填充距离函数和框架匹配权重 |
44-45 |
|
5.2.4 分词与词语间相似度计算 |
45-49 |
|
5.2.5 框架匹配机制 |
49 |
|
5.2.6 基于语义的文本信息过滤算法描述 |
49-50 |
|
5.3 应用于应用层上的网页过滤 |
50-51 |
|
5.3.1 基于 HTTP代理服务器的实现 |
50 |
|
5.3.2 基于 COM技术的实现 |
50-51 |
|
5.4 试验结果分析及结论 |
51-52 |
|
6 通过代理服务器实现 Web访问的内容过滤与重现 |
52-62 |
|
6.1 代理服务器的实现原理 |
52-53 |
|
6.2 代理服务器的作用 |
53-54 |
|
6.3 基于代理的 Web访问内容过滤与重现 |
54-62 |
|
6.3.1 Web内容过滤的现状 |
54 |
|
6.3.2 HTTP协议分析与 Web页访问处理流程 |
54-55 |
|
6.3.3 具有过滤功能的代理服务器 |
55-58 |
|
6.3.3.1 代理服务器的作用与工作流程 |
55-56 |
|
6.3.3.2 过滤模块设计 |
56-58 |
|
6.3.4 基于代理的网络访问内容重现算法 |
58-59 |
|
6.3.5 在内容重现的基础上改进代理技术 |
59 |
|
6.3.6 用 VC++实现 Web访问内容过滤与重现 |
59-61 |
|
6.3.7 试验结果分析及结论 |
61-62 |
|
7 SemanticFR系统的功能、结构和实现 |
62-77 |
|
7.1 SemanticFR系统的功能 |
62-63 |
|
7.2 SemanticFR系统结构及各模块的功能 |
63-66 |
|
7.2.1 主控制模块 |
65 |
|
7.2.2 网络数据包过滤模块 |
65 |
|
7.2.3 流量监控模块 |
65 |
|
7.2.4 代理模块 |
65 |
|
7.2.5 内容重现模块 |
65-66 |
|
7.2.6 访问控制模块 |
66 |
|
7.3 SemanticFR使用的技术 |
66-68 |
|
7.3.1 利用内存映射文件实现数据在进程间共享和快速读写 |
66-68 |
|
7.4 SemanticFR系统的实现及性能分析 |
68-75 |
|
7.4.1 数据准备 |
68-70 |
|
7.4.2 主控制模块 |
70 |
|
7.4.3 流量监控 |
70-71 |
|
7.4.4 包过滤的设置和实现 |
71-72 |
|
7.4.5 代理模块 |
72-74 |
|
7.4.6 基于语义的 Web页内容过滤模块 |
74-75 |
|
7.5 SemanticFR系统的性能分析 |
75-77 |
|
7.5.1 包监控和包过滤性能分析 |
75 |
|
7.5.2 基于语义的过滤性能分析 |
75-76 |
|
7.5.3 内容重现性能分析 |
76-77 |
|
结论 |
77-78 |
|
1、创新点 |
77 |
|
2、不足之处与今后的工作 |
77-78 |
|
参考文献 |
78-85 |
|
在学研究成果 |
85-86 |
|
致谢 |
86 |
|
| 【DOI】 | LunWen.ID:2.2008.360041 |