一种基于本体的敏感词过滤方法研究
发布时间:2017-11-19 18:22
本文关键词:一种基于本体的敏感词过滤方法研究
【摘要】:锡林郭勒职业学院是位于内蒙古锡林浩特的一所公办职业学校,2003年九所职业学校合并而成的锡林郭勒职业学院拥有在校生一万八千余人,教职员工近九百人。随着网络科技的飞速发展,为了顺应网络信息时代的浪潮,学院网上办公系统和学生论坛等网络平台也在逐步的建立当中。然而,在信息公开的同时,也带来不少现实问题,例如虚假广告信息、学生不良言论、反动分子的蓄意破坏等都给网络平台的发展提出了现实的挑战。针对锡林郭勒职业学院网络信息化的实际需求,本文拟设计一套敏感词过滤方法。通过对广告、不良言论、不和谐词汇的过滤,实现灵活准确网络信息管理。 本文的主要工作包括如下几个方面。 首先,通过对现有的经典敏感词过滤方法进行全面调研,分析比较现有方法的特点,发现现有经典算法和扩展算法更多的注重过滤的效率而忽视了准确度指标。针对这一薄弱环节,本文提出了一种基于本体的敏感词过滤方法。其核心是对敏感词进行分类,对敏感词之间可能的语义关联进行发掘并加以利用,从而达到缩小过滤范围,提高过滤准确度的目的。 其次,为了支撑有效的精确的敏感词过滤,我们建立了高校学生论坛敏感词过滤领域本体,对于学生信息、敏感词词条和管理规范三类信息进行了梳理,对学生属性、敏感词语法语义信息以及管理规范等进行了形式化建模。通过OWL语言和Protégé工具,对于形式化模型进行了描述。建立了包括21个类,15个属性和303个个体实例的本体。 再次,依据学院网络信息平台的实际需求,对本文提出的敏感词过滤算法进行了设计与实现。通过分析总体需求和详细需求,对算法进行了总体设计和详细设计,进而使用OWL API和Swing等java程序包,对算法进行了实现。 最后,通过系统集成,,在学院网络信息平台上验证了方法的可行性和运行效率,从实际用力方面验证了方法在敏感词过滤准确度方面的提高。 本项目的顺利完成,为敏感词过滤提出了一种新的思路。将语义关联应用在敏感词过滤范围的动态确定角度,达到了提升准确度的目的。本文提出的方法是本体工程技术在实际领域现实问题的解决中又一次有益的尝试。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【参考文献】
中国期刊全文数据库 前10条
1 陈丽萍;赵利平;陈新敏;;基于自学习规避库的短消息过滤系统的设计与实现[J];电脑知识与技术;2011年31期
2 邹岚;徐芳;;文本内容信息过滤系统的研究与设计[J];电脑知识与技术;2012年34期
3 陈欣;张菁;李晓光;卓力;;一种面向中文敏感网页识别的文本分类方法[J];测控技术;2011年05期
4 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
5 秦浩伟,步丰林;一个中文新词识别特征的研究[J];计算机工程;2004年S1期
6 邵忻;徐倩漪;;网络伪装不良信息检测方法的研究与仿真[J];计算机仿真;2012年02期
7 侯永帅;张耀允;王晓龙;陈清财;王宇亮;户保田;;中文问答系统中时间敏感问句的识别和检索[J];计算机研究与发展;2013年12期
8 刘霁;周亚东;高峰;赵俊舟;薛峰;;一种基于文本语义的网络敏感话题识别方法[J];深圳信息职业技术学院学报;2011年03期
9 刘耕;方勇;刘嘉勇;;基于关联词和扩展规则的敏感词库设计[J];四川大学学报(自然科学版);2009年03期
10 靳文静;;“学生论坛”:增强思品课教学的实效性[J];上海教育科研;2013年03期
中国博士学位论文全文数据库 前1条
1 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
本文编号:1204477
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1204477.html