基于改进K最近邻分类算法的不良网页并行识别
本文关键词: 不良网页 文本分类 K最近邻分类算法 Hadoop MapReduce 出处:《计算机应用》2013年12期 论文类型:期刊论文
【摘要】:互联网中,黄色、暴力、赌博、反动等不良网页大量存在。如果不进行有效过滤,将给搜索服务带来不良的影响。采用改进的K最近邻分类算法来提高识别的准确率,并在虚拟化平台上通过开源的Hadoop软件所提供的MapReduce模型进行分布式并行处理。对比实验结果表明,所采用的识别方法的识别准确率和识别效率都有较大的提高。
[Abstract]:Internet, yellow, violence, gambling, reactionary and other bad web pages exist in large numbers. If not effectively filtered. The improved K-nearest neighbor classification algorithm is used to improve the recognition accuracy. And on the virtualization platform through the open source Hadoop software provided by the MapReduce model for distributed parallel processing. The recognition accuracy and efficiency of the method are improved greatly.
【作者单位】: 北京信息科技大学计算机学院;网络文化与数字传播北京市重点实验室(北京信息科技大学);
【基金】:国家社会科学基金重大项目(12&ZD234) 国家自然科学基金资助项目(60973107) 网络文化与数字传播北京市重点实验室资助项目(ICDD201106,ICDD201207)
【分类号】:TP393.092
【正文快照】: 0引言随着互联网覆盖范围和应用人群的不断扩大,以及带宽的逐渐增加,给人们的工作、生活和学习带来了很大的便利。但随之而来的,也涌现了包含大量黄色、暴力、赌博甚至是反动内容的网页,而且这类不良网页信息正在全球范围内呈现蔓延和泛滥之势。有些不良网页为了避免被禁止访
【参考文献】
相关期刊论文 前2条
1 吴慧玲;沈建京;贺广生;;基于不良文本信息过滤预处理方法的研究[J];网络安全技术与应用;2006年11期
2 杨晓懿 ,刘嘉勇;基于内容的信息安全过滤技术[J];信息网络安全;2004年04期
【共引文献】
相关期刊论文 前4条
1 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期
2 曹毅;贺卫红;;基于向量空间模型的信息安全过滤系统[J];计算机工程与设计;2006年02期
3 吴慧玲;耿西伟;沈建京;贺广生;;一种不良信息过滤的文本预处理方法研究[J];微计算机信息;2006年36期
4 吴慧玲;沈建京;贺广生;;基于不良文本信息过滤预处理方法的研究[J];网络安全技术与应用;2006年11期
相关硕士学位论文 前8条
1 金勇;网络信息内容监控技术及应用研究[D];四川大学;2005年
2 黄果;文本信息检索模型研究[D];西南大学;2007年
3 张琼;Web主题网页内容安全监管研究[D];西安电子科技大学;2008年
4 王亚非;SIP通信网络监听系统的设计与实现[D];北京邮电大学;2008年
5 牛洪波;基于文本分类技术的信息过滤方法的研究[D];哈尔滨理工大学;2008年
6 邱思衡;无线互联网不良信息过滤系统的研究与设计[D];北京邮电大学;2009年
7 王雷;基于内容识别的不良网页双重过滤方法研究[D];吉林大学;2012年
8 范荣辉;WCDMA网络下的移动互联网内容信息安全解决方案研究[D];中山大学;2013年
【二级参考文献】
相关期刊论文 前3条
1 张永奎,李东艳;互联网中非法文本特征分析及其属性预选取新方法[J];计算机应用;2004年04期
2 孙强;李建华;李生红;;基于一类分类法的不良信息过滤模型[J];上海交通大学学报;2005年12期
3 杨晓懿 ,刘嘉勇;基于内容的信息安全过滤技术[J];信息网络安全;2004年04期
【相似文献】
相关期刊论文 前10条
1 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
2 李钝,梁吉业;利用聚类和粗糙集进行文本分类研究[J];计算机工程与应用;2003年07期
3 谢世朋,胡茂林;对特定区域搜索引擎的自动分类系统的研究[J];微机发展;2005年09期
4 钟延辉;傅彦;陈安龙;关娜;;基于抽样的垃圾短信过滤方法[J];计算机应用研究;2009年03期
5 王强;贾银山;;支持向量机及其在邮件过滤中的应用[J];微处理机;2010年03期
6 王冠,裘正定;结合中文网页自动分类系统的AIP平台[J];微机发展;2005年03期
7 吴楚坤;吴扬扬;;基于关联规则挖掘的中文网页体裁模式发现[J];计算机工程与科学;2008年12期
8 王昌厚;罗永莲;;基于突发事件新闻网页的文本分类方法研究[J];长治学院学报;2006年02期
9 谭建龙;张吉;郭莉;;基于通用后缀树模型的垃圾邮件过滤方法[J];计算机工程;2007年09期
10 熊忠阳;杜圣东;张玉芳;;一种改进的支持向量机邮件分类器[J];计算机科学;2007年09期
相关会议论文 前10条
1 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 王岩;;基于内容的垃圾邮件过滤技术[A];中国通信学会第六届学术年会论文集(中)[C];2009年
3 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
4 潘文锋;王斌;于满泉;谭松波;;Winnow算法在垃圾邮件过滤中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 刘晓勇;;基于GA与SVM融合的网页分类算法[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
6 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
7 江涛;于洪志;徐涛;;互联网藏文内容安全检测过滤系统研究[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
9 郎加云;胡学钢;;电子邮件内容过滤的相关特征研究[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
10 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
相关重要报纸文章 前1条
1 应晓敏 窦文华;技术架构[N];计算机世界;2003年
相关博士学位论文 前9条
1 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
2 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
3 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
4 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
5 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年
6 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
7 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
8 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
9 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
相关硕士学位论文 前10条
1 杨昂;文本分类算法研究[D];湖南大学;2002年
2 袁野;基于Vague集的网络舆情研究[D];西安电子科技大学;2010年
3 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
4 陈应友;基于hadoop的微博文本分类及商业词抽取[D];杭州电子科技大学;2013年
5 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
6 杨丽华;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2006年
7 曾志中;基于贝叶斯算法的垃圾邮件过滤系统的分析与实现[D];北京邮电大学;2009年
8 张汇;基于贝叶斯的网页文本分类算法[D];华中科技大学;2004年
9 刘建波;基于Agent的用户兴趣模型的研究[D];沈阳工业大学;2005年
10 朱军;中文垃圾邮件过滤技术研究及应用[D];合肥工业大学;2005年
,本文编号:1488320
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1488320.html