信息过滤技术在网站信息监管中的应用与研究
发布时间:2017-05-17 15:07
本文关键词:信息过滤技术在网站信息监管中的应用与研究,,由笔耕文化传播整理发布。
【摘要】:目前在全球经济一体化的情势下,各类网络信息深入发展和传播,已经引起了世界各个国家的高度重视,社交网络成为了彼此博弈的新的阵地。我们也发现在社交网络出现了大量的虚假和欺骗信息,还有一些反党反社会言论,这些都混淆了公众的判断,一旦被扩散传播,还会造成社会恐慌和动荡。随着社交网络逐渐影响人们的生活和各类信息在各个网络的传播,世界各国都对社交网络言论给予了高度重视。对于我国来说,考虑到在世界各地出现的各类突发事件对国家的影响,应该将社交网络管理纳入工作重点,通过对社交网络的监管,使它在健康、良性的轨道上发展,而不要成为别有居心的国家或个人为达到不可告人目的的工具。本文研究的方向就是利用信息过滤技术,将社交网络中涉及语言暴力、非法宣传、色情类文字内容从正常的网页中分离出来,以有效保护社交网络信息安全和网络的净化。信息过滤技术采用的主要方法有基于信息发布地址和基于信息内容关键字,经过分析研究发现其各有优缺点。只有采取对信息的内容进行详尽分析,并具体分拆理解,再加上统计算法才能够提高对网页内容的准确判断。本文的主要工作包括内容提取、中文分词、特征选择和提取、文本分类技术等。1)Web页内容提取。基于启发式方法从web页面提取用户感兴趣内容的技术实现简单,很有效。实验结果表明,实施启发式后生成的web页面没有无关紧要的内容链接,广告等内容被过滤,用户关注的主要内容被正确显示。2)中文分词算法设计。以文本中的标点为标记,每两个标点之间为一句。搜索整个句子进行匹配,当遇到终止符时可以理解为得到了一个具有意义的词,然后把这个词作为继续搜索匹配的基础。这种循环匹配方式是线性的,每个字都需要在句子中做到全部匹配,无论该词的长度是多少,都可以做到保证没有漏词。3)文本的向量空间模型。向量空间模型计算文档之间的相似度,以及文档的查询频率,为文本设置向量和为文档的索引词设置加权参数。4)特征选择和特征提取。特征选择是基于设定的规则选择最能充分表现的特征作为代表;特征提取是对原始特征进行分类重组,这样可以将离散化的原始特征聚集到较少的分类中,利于检索。5)SVM支持向量机。SVM支持向量机的工作因为创建一个分类器,最大化正面和负面之间的差距,提高利益最大化,对文本分类很有效。通过与其他分类器比较得知:SVM向量机分类器准确性和分类速度都是非常好的。本文设计的网站信息监管功能首先需要收集训练网页数据,并对数据进行预处理,去掉网页中无用的广告、图片、视频等信息内容,然后采用文本文档的方式保存数据。接着对文本文档进行中文分词和特征计算,这个过程中对较高维度进行特征抽取并执行特征降维操作。对所得到的训练数据利用支持向量机来获得用于各个分类的SVM分类器,进而完成训练过程。然后利用所得分类器对测试数据进行分类测试,经过多次分类结果反馈评估,根据测试结果对参数做进一步调整以提高预测精度。
【关键词】:Web内容提取 中文分词 特征提取 分类器 信息过滤
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要4-7
- Abstract7-12
- 第一章 绪论12-17
- 1.1 课题研究背景和意义12-13
- 1.2 信息过滤系统研究现状13-15
- 1.3 本文研究内容和主要工作15-16
- 1.4 论文结构16-17
- 第二章 信息过滤相关技术17-37
- 2.1 Web页内容提取17-26
- 2.1.1 启发式Web页内容提取17-22
- 2.1.2 机器学习提取Web页内容22-26
- 2.2 中文分词最大匹配算法26-29
- 2.2.1 设计目标27
- 2.2.2 词库27-28
- 2.2.3 中文分词算法设计28
- 2.2.4 中文分词算法的实现细节28-29
- 2.3 向量空间模型表示文本29-33
- 2.3.1 向量空间模型29-30
- 2.3.2 效果测试30-33
- 2.4 特征选择和特征提取33-36
- 2.4.1 特征选择33-35
- 2.4.2 特征提取35-36
- 2.5 本章小结36-37
- 第三章 文本文档分类器37-45
- 3.1 归纳学习方法38-41
- 3.1.1 分类器38
- 3.1.2 文本表示和特征38-39
- 3.1.3 归纳学习的分类器39-41
- 3.2 数据集测试41-42
- 3.3 测试结果42-44
- 3.4 结论44
- 3.5 本章小结44-45
- 第四章 网站信息监管功能设计45-51
- 4.1 总体框架设计45-46
- 4.2 训练集准备46-47
- 4.3 数据处理47
- 4.4 模型选择47-50
- 4.4.1 RBF径向基本函数核心47-48
- 4.4.2 交叉验证和网格搜索48-50
- 4.5 本章小结50-51
- 第五章 网站信息监管功能实现51-60
- 5.1 网站信息数据收集51-52
- 5.2 数据预处理52-56
- 5.3 SVM支持向量机训练和测试56-59
- 5.3.1 SVM分类器测试57
- 5.3.2 SVM分类器最终测试结果57-59
- 5.4 本章小结59-60
- 第六章 总结和展望60-62
- 6.1 总结60-61
- 6.2 展望61-62
- 作者简介62-63
- 致谢63-64
- 参考文献64-66
【参考文献】
中国期刊全文数据库 前9条
1 张永;周振龙;侯莉莉;张世宏;;使用增量SVM进行文本分类[J];兰州理工大学学报;2007年01期
2 陈淑珍;Web文本挖掘中的特征表示与特征提取技术[J];三明高等专科学校学报;2004年02期
3 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
4 杨晓懿 ,刘嘉勇;基于内容的信息安全过滤技术[J];信息网络安全;2004年04期
5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
6 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
7 唐懿芳 ,牛力 ,傅赛香 ,严小卫;文本的自动分类[J];广西师范大学学报(自然科学版);2001年04期
8 刘明吉;王秀峰;黄亚楼;;数据挖掘中的数据预处理[J];计算机科学;2000年04期
9 陈涛;谢阳群;;文本分类中的特征降维方法综述[J];情报学报;2005年06期
中国硕士学位论文全文数据库 前2条
1 张治平;Web信息精确获取技术研究[D];国防科学技术大学;2004年
2 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
本文关键词:信息过滤技术在网站信息监管中的应用与研究,由笔耕文化传播整理发布。
本文编号:373728
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/373728.html