浅谈文本内容信息过滤系统的开发与研究
摘 要:随着时代的不断前进和发展,信息技术也得到了一定的进步和创新,在各个行业中都得到了极为广泛的应用。本文主要是在PHP的基础上对文本内容信息过滤系统进行设计以及开发的,其相关的功能主要包括非法信息的过滤、后台管理、自动安装以及远程页面的检测等。文本内容信息过滤系统为管理员在审核一些相关的信息内容时提供了方面,促使其管理效率以及速度的提高。
关键词:文本内容;信息过滤系统;开发;研究
中图分类号:TP311.52 文献标识码:A 文章编号:1674-7712 (2014) 04-0000-01
随着网络信息技术的发展以及广泛应用,一些不法分子也开始使用网络对不法信息进行传送,网络上出现一些反动、色情以及暴力等相关的不良信息传播的情况,对社会的发展进步造成了严重的影响,因此,网络信息的安全得到了越来越多的人的关注。在这个社会大背景下,对文本内容信息过滤系统进行研究和开发,可以对网络文本中的不良信息在传播的时候进行过滤,促使这样的情况得到控制,从而使人们在对网络进行使用的时候,信息资源环境的健康整洁得到保障。
一、文本内容信息过滤系统的功能需求
在对文本内容信息过滤系统进行实际使用的时候,会对公众信息公开申请、网站留言以及网站信息发布等内容的模块了进行自动过滤,将其中出现的诽谤、侮辱以及谩骂等相关的非法内容进行自动过滤,并在系统中对相关的用户进行提醒,将其及时反馈给管理员。这样的工作在开展的时候,审核效率以及速度得到了大幅度的提升。而在使用PHP进行开发设计的文本内容信息过滤系统在使用的时候,可以对文本中的不良信息进行剔除,还可以对一些已经发表过的文字进行检测工作的开展,在结果出来后对相关的管理员进行及时反馈。
(一)对数据库的设计。在对MySQL数据库进行使用的时候,其相关的设计结果相对较为清晰,在对用户表、日志表以及词汇表进行管理工作的开展提供一定的便利,并且,可以对词库表中所含有的敏感词、敏感词名以及词类别进行检测。而在对用户表进行管理的时候,主要包括对用户密码、用户名以及用户类别信息的管理。另外,在日志表中,则注意是对URL地址、检测结果以及原文章内容等相关的进行管理。
(二)系统中中文的简体以及繁体互换功能。在MySQL数据库中,,其相关的字符设集被设置成了GBK格式,其检测的敏感词几乎是简体。而在现实生活中,一些用户在对文章进行发表的时候,在文章之中总会有繁体的敏感词存在,因此,在对用户所发表的一些文章进行文本内容的检测时,可以对信息进行过滤,在这个过程中,需要对敏感词进行简繁的转换,促使信息在过滤时的准确性得到一定的提高。
(三)系统中拼音以及中文之间互换的功能。在对文本内容信息过滤系统进行运用的时候,一些文章在发表的时候,用拼音来代替敏感词,因此,相关的工作人员还要注意在系统中设计中文以及拼音的互换功能。这样就可以对文章中所含有的不良敏感词信息进行有效的过滤,从而使文本内容信息过滤系统子在使用的时候,精确性能够达到新的高度。
二、文本内容信息过滤系统的设计
在对文本内容信息过滤系统进行设计的时候,其主要包含有信息过滤模块、自动安装模块、后台管理模块以及页面检测模块等四大模块。其中,信息过滤模作为系统中的是核心内容,可以分析文本中所含有的敏感词,对其中存在的一些非法词汇进行最大程度的过滤;自动安装模块可以配置系统,比如在数据库与相关信息进行连接的时候,需要对系统相关的管理员进行创设,从而使配置文件得以生成;后台管理模块在实际使用的过程中,可以在管理员管理工作实际开展的时候,为管理员进行提供权限管理、管理敏感词汇库以及用户管理等相关的操作后台;页面检测模块在使用的时候可以对URL地址进行检测,可以对网页的源码进行提取,对文本中所含有的一些不良信息进行分析以及滤除。
(一)对后台的管理设计。在对文本内容信息过滤系统进行实际使用的时候,可以为相关的管理员提供一个相对较为简洁、友好以及功能完善的管理后台,以供管理员对用户进行管理工作的开展,其中注意包括对词库中数据进行查旬、增加、权限管理、删除以及修改等操作。
(二)对系统中信息过滤模块的设计。在对文本内容信息过滤系统中的信息过滤模块进行设计的时候,要对中文和拼音之间的互相转化、繁体和简体之间的互相转化以及喜好词的生成等相关的功能进行重点关注。为用户在使用过程中非法信息的滤除、对相关用户的搜索的关键词进行自动分析以及对用户的喜好词进行智能生成等,为用户在实际使用的过程中提供方便。
(三)在系统中对自动安装设计模块进行添加。在对文本内容信息过滤系统进行设计的时候,自动安装模块可以对其开展全新的安装工作,其中主要分为三个步骤。第一是对系统信息的填写和配置,促使配置文件的生成;第二是对系统相关的管理员的创建;第三是对文本系统相关的数据库进行创建,其中还包括对系统中敏感词库的创建。
三、结束语
综上所述我们可以得知,随着我国经济水平的不断发展和提高,我国科技水平也得到了相应的创新和进步,其中,网络信息技术在各个行业中得到了相对较为广泛的应用。本文通过对文本内容信息过滤系统的设计以及研究进行全面的了解和掌握,其在设计的时候对关键词匹配技术进行了采用,促使系统在对敏感词进行深入分析,从而使文本内容信息过滤系统对不良信息内容过滤时的精准度进行提高。
本文编号:12418
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/12418.html