当前位置:主页 > 硕博论文 > 社科硕士论文 >

框架匹配导向下的网络文本分析过滤算法研究

发布时间:2014-09-26 09:31

【摘要】 随着互联网的飞速发展,信息过滤已成为信息系统科学领域的技术焦点。从过滤技术角度来看,传统文本过滤技术绝大多数是基于关键字的过滤技术和基于词频统计方法的过滤技术。这两种过滤方法比较简单实用,但仅仅停留在文本结构层次上而无法体现文本语义,故过滤效果很难实现智能化。为解决上述问题,本文提出一种基于语义框架匹配的文本过滤算法。该算法的核心内容包括:对目标文本进行分词、词性标注、特征提取、语义框架提取和语义框架问的相似度计算。在提取关键文本阶段,根据网页元素对正文主题支撑程度的不同,本文将网页分为两层,其中标题作为第一层,正文作为第二层,层次较高的元素权重也相对较大。在进行文本处理阶段,首先对语句进行分词及词性标注。然后,借助语法规则库与分词结果中存储的词性和词在句子中的位置信息,区分出关键词(主谓宾)并填充语义框架,最后将待过滤文本的语义框架同样本的语义框架进行相似度计算。其中,在进行相似度计算时,该算法对权重计算策略进行了改进和优化,主要综合考虑三种因素,即框架元素与行为动词之间的语义距离、框架元素的相关度与层级结构。试验结果表明,与传统算法相比较,该算法在对文本进行有效的降维处理基础之上,使文本的查全率和查准率得到有效的提高。基于上述文本过滤算法,本文设计实现了基于语义框架匹配的短文本过滤系统。试验表明,本系统的性能和过滤效果得到有效的提高。 

【关键词】 文本过滤; 语义框架; 层次结构; 相似度计算; 

1绪论

1.1研究背景和意义
在我们受益于信息化给我们带来的种种好处之时,由于全社会对于信息化技术的过度依赖,导致信息安全问题层出不穷。一方面,面对庞大的信息世界与杂乱无序的超级链接,用户在搜索查找目标信息时感到非常困难并花费大量时间;另一方面,用户通过各种渠道获取或分享网络资源的同时也不可避免地使大量的网络“垃圾”如不良信息、病毒邮件等侵入他们的生活,造成极其严重的后果。据有关机构调查,青少年访问过不良网站,其中少部分频繁浏览该类网页,严重影响青少年的健康发展。所以,目前的关键工作就是要对互联网进行合理管理,去其糟粕取其精华,将信息资源中的无用或不良信息过滤掉,给用户一个绿色的网络空间。为了实现这一目标,信息过滤技术应运而生。

1.2研究现状
文本过滤技术源自在面向图书馆的用户需求管理工作时提出的“商业智能机器”设想,该设想为文本过滤的发展奠定了一定基础。基于此,首次以电子邮件系统为例对信息过滤进行描述,通过“内容过滤器”实现过滤机制;等人设计出该系统,并建立信息选择模式;而后的阶段,信息过滤得到该领域的普遍关注,第一届会议就提出在信息选择过程中采用信息抽取技术,积极发挥自然语言处理技术在文本过滤领域中的强大作用。提出一种语义倾向性方法,使用一个词和强烈表示正面倾向信息,减去它和强烈表示负面信息,计算这个词的语义倾向。如果一篇评论中所有词的语义倾向值之和为正,那么判断评论为正面的,否则判断为反面的。等人提出了一个情感分析器主要对句子进行语法分析,然后利用情感词汇表和情感模式库分析句子的语义关系,主要是针对结构简单的文档进行过滤。
...............

2信息过滤技术

2.1信息过滤理论基础
信息过滤是信息检索的一个重要分支学科。美国计算机科学家认为信息过滤是建立在检索的基础之上,以满足用户信息需求为目的,在动态文本流中主动副除其他不良信息,搜索有效信息的过程等学者认为信息过滤用于管理大批信息流,旨在为用户提供需求信息。经过研究分析,信息过滤的实质是将用户需求模板与动态信息流进行匹配计算,并抽取有用信息传送给用户。信息过滤可描述为一个二值分类问题。即设待过滤文本内容为存在两个文档类:不良信息类与其他信息类,信息过滤的实质是将待过滤文本集合归划到类或者类中,然后将划到不良信息类的文档过滤掉。

2.2信息过滤技术
关键字匹配过滤技术是一种基础的文本过滤技术,因其方便、快捷的特点,国内普遍采用关键词技术过滤网络不良信息〗。其主要思想是对待分析过滤文本内容进行预处理,同用户词库进行比对并统计结果,如果结果超过设定的阈值,那么说明文本内容属于不良内容信息,则要被过滤,反之则放行。该技术的基础是创建一个庞大的关键词列表,并保证不断更新。关键词匹配算法中常用布尔模型和向量空间模型。布尔模型的主要思想是抓取特征词汇对其进行逻辑运算,最后进行相应的文本处理。其中,一般要找最能体现该文本的关键词或特征项来作为特征词汇。向量空间模型将文本和用户需求转换为向量形式后判断待过滤文本与用户需求模板之间的相似度同设定的阈值的大小,按照结果执行过滤或放行指令。这种模型体系简单且较好实现用户需求,但没有添加权重计算,不能加入人工调节,所以导致过滤效果不容易在控制范围内。

3基于框架匹配的文本分析....................10
3.1中文分词.......................10
3.2几种常用的分词方法.................11
4网络文本过滤系统系统........................22
4.1设计方案.......22
4.2系统的功能设计....22
5总结与展望............45
5.1工作总结.......................45
5.2工作展望.....................45

4网络文本过滤系统系统

4.1设计方案
在代理服务器转发网络数据包时,可从语义的角度出发,对目标文本进行过滤。基于这种思想建立的相关系统首先从自然语言学的角度出发,对样本文本与待过滤文本分别进行分词、词性标注以及特征提取。其次,依据格语法知识构建样本文本与待过滤文本的语义框架,使之充分体现原始文本的语义关系。再次,按照汉语的语法知识,采用语义距离函数及框架相似度计算公式。最后,基于给定的样本训练与人为的调整,找到合适的参数和阈值,从而判断文本是否被过滤,达到高查准率、高查全率。

4.2系统的功能设计
如上图所示,本系统主要分为两大部分:网络监控和文本过滤。这两大部分都由系统控制模块控制、协调并对整个运行进行管理。系统控制模块主要对系统进行初始化设置,并为各模块分配系统需求的资源。其工作流程为:首先,连接数据库,然后读取网络访问记录日志表中过滤规则表的历史记录。最后,创建内存映射文件,以便在系统的各个模块间共享数据。其中,网络监控部分主要针对网络访问权限及内容进行有效的管理控制。代理模块的主要功能是转发建立客户机与目标服务器之间页请求和应答信息,并提供内部子网和的实际网络通讯。网络数据包过滤模块的主要功能是过滤禁用的地址与网络数据包。内容重现模块的主要功能是存储和重现己访问的网页内容。
............

5总结与展望

5.1工作总结
在基于框架匹配实现网络文本过滤系统的过程中,本文基于代理服务器实现一个页文本语义过滤系统,系统能够实现网络监测与文本过滤。其中,网络监测过程中,主要采用应用代理技术实现网页访问代理,使用技术从网络层抓取数据包,根据用户的设置并依托于网络层,分别从地址、协议与端口号的角度出发,对数据包进行过滤。在这一过程中,文本过滤系统通过代理服务器对客户机页面的访问请求进行拦截,并对放行后存储访问过的页面进行判断,最终可以实现内容重现;在文本过滤过程中,文中釆用多级过滤机制,依托于网络层对数据包进行过滤,并且对于截获后的数据包基于地址、端口等途径进行控制访问。与此同时,依托于应用层,文中采用代理技术对目标服务器页中关键字进行过滤,并基于语义的文本过滤对只包含关键字的文本进行过滤。实验结果表明文本过滤过程中的查准率和查全率得到了提高。

5.2工作展望
所创建的相关算法和系统中,对于精确分词具有一定的局限性,对于未登录词以及停用词都有一定的障碍,未来可以在行为主体、中心动词以及行为客体的基础之上,进一步提取行为情境、行为时间等框架角色,创建精确度高及多元化的语义框架提取方法;本文所采用的相关实例是针对一部分领域(包括政治、经济等)中的相对简单的短文本进行取样验证,而网络信息所覆盖的领域广泛,为了使得文章所提出的相关方法和理论能够适用于更多的对象,未来需对复杂文本进行算法分析。

................. 

参考文献:



本文编号:9231

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/shuoshibiyelunwen/9231.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f597c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com