当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于主题网络爬虫的不良网页的发现与识别

发布时间:2018-04-22 09:25

  本文选题:主题网络爬虫 + 不良网页 ; 参考:《郑州大学学报(理学版)》2010年02期


【摘要】:针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略.
[Abstract]:In view of the large amount of bad content appearing in the Internet, this paper analyzes its main features, and puts forward for the first time the technology of combining the text features of the bad web pages with the web crawlers in search engines to actively search for the bad pages and websites in the Internet. The results are fed back to the user layer in order to deal with the bad web pages and websites in order to purify the network environment. Experimental results show that the proposed algorithm can effectively detect bad web pages and can deal with the anti-keyword filtering strategy of bad websites.
【作者单位】: 电子科技大学计算机科学与工程学院;
【基金】:国家自然科学基金资助项目,编号60973120,60903073 国家863计划项目,编号2007AA01Z440 四川省科技攻关项目,编号2008GZ0009
【分类号】:TP393.092

【参考文献】

相关期刊论文 前2条

1 张永奎,李东艳;互联网中非法文本特征分析及其属性预选取新方法[J];计算机应用;2004年04期

2 陈平;刘晓霞;李亚军;;文本分类中改进型互信息特征选择的研究[J];微电子学与计算机;2008年06期

【共引文献】

相关期刊论文 前10条

1 李东艳;黄鹏鹤;;基于双层规则的内容安全过滤方法[J];大连交通大学学报;2007年03期

2 李东艳;张永奎;;一个基于非法文本用词特征分析的文本分类器[J];电脑开发与应用;2006年10期

3 樊东辉;王治和;陈建华;许虎寅;;基于聚类的KNN算法改进[J];电脑知识与技术;2011年35期

4 樊东辉;王治和;陈建华;许虎寅;;基于DF算法改进的文本聚类特征选择算法[J];甘肃联合大学学报(自然科学版);2012年01期

5 牛洪波;丁华福;;基于文本分类技术的信息过滤方法的研究[J];信息技术;2007年12期

6 张永奎;高峰;;一种不良文本识别特征选择方法[J];计算机工程与应用;2010年02期

7 卢扬竹;张新有;祁玉;;邮件过滤中特征选择算法的研究及改进[J];计算机应用;2009年10期

8 彭昱忠;元昌安;王艳;覃晓;;基于内容理解的不良信息过滤技术研究[J];计算机应用研究;2009年02期

9 妥晓娜;吴承勇;;基于逻辑斯蒂方程的垃圾邮件过滤特征方法的研究[J];内蒙古大学学报(自然科学版);2010年04期

10 吴慧玲;沈建京;贺广生;;基于不良文本信息过滤预处理方法的研究[J];网络安全技术与应用;2006年11期

相关硕士学位论文 前10条

1 黄茜;基于行为分析的代码危害性评估技术研究[D];解放军信息工程大学;2010年

2 邓彩凤;中文文本分类中互信息特征选择方法研究[D];西南大学;2011年

3 邓冰娜;面向博客的垃圾评论识别方法研究[D];河北大学;2011年

4 李东艳;互联网信息内容安全过滤方法研究[D];山西大学;2004年

5 黄志刚;基于贝叶斯的中文垃圾邮件过滤系统的设计与实现[D];电子科技大学;2007年

6 郑梅;基于规则的垃圾邮件过滤系统设计与实现[D];电子科技大学;2008年

7 原媛;基于感情色彩词的非法信息过滤防火墙的设计[D];山西大学;2008年

8 卢扬竹;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2009年

9 欧红星;电子邮件安全过滤与检查技术研究[D];中南大学;2008年

10 杜飞;基于特征字的病毒过滤防火墙技术研究[D];北方工业大学;2010年

【二级参考文献】

相关期刊论文 前5条

1 孙春来,段米毅,毛克峰;基于内容过滤的网络监控技术研究[J];高技术通讯;2001年11期

2 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期

3 赵仲孟,陈剑,张选平,翁莉萍;网络内容安全分析与对策[J];计算机工程;2002年05期

4 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期

5 贺贤明,戴坚峰;一种新型文本自动分类系统的研究与实现[J];微电子学与计算机;2004年10期

【相似文献】

相关期刊论文 前10条

1 王少康;董科军;阎保平;;使用特征文本密度的网页正文提取[J];计算机工程与应用;2010年20期

2 肖建国;;试论文本挖掘及其应用[J];图书馆学研究;2008年04期

3 张全力;何卫平;秦忠宝;王政;;基于样本公共特征的产品设计信息搜集[J];计算机工程;2006年03期

4 蒋人杰;戚飞虎;徐立;吴国荣;;基于连通分量特征的文本检测与分割[J];中国图象图形学报;2006年11期

5 杨应全;文汝;;网络环境下文本自动分类分析[J];科技文献信息管理;2005年01期

6 邹腊梅;肖基毅;龚向坚;;Web文本挖掘技术研究[J];情报杂志;2007年02期

7 ;丑闻报告“火”了INTERNET[J];互联网周刊;1998年06期

8 朱宝奇;互联网与城市电视的新发展[J];中国有线电视;1999年12期

9 朱宝奇;互联网与城市电视的新发展[J];扬州大学学报(人文社会科学版);1999年06期

10 宋秀卿;;当DELL成为动词[J];互联网周刊;1999年26期

相关会议论文 前10条

1 王锦;王会珍;张俐;;基于维基百科类别的文本特征表示[A];第五届全国青年计算语言学研讨会论文集[C];2010年

2 贺宁武;孙志刚;;面向流媒体传输研究的StreamSim模拟器设计与实现[A];中国电子学会第十六届信息论学术年会论文集[C];2009年

3 汪明峰;;互联网与城市地理学:中国案例与研究进展[A];中国地理学会百年庆典学术论文摘要集[C];2009年

4 李宏利;雷雳;王争艳;;青少年在互联网使用中的时间知觉研究[A];第九届全国心理学学术会议文摘选集[C];2001年

5 佐斌;;互联网对青少年心理与行为的影响[A];第九届全国心理学学术会议文摘选集[C];2001年

6 杨菊红;;科技期刊办刊应如何利用互联网上的资源[A];第三届中国科技期刊青年编辑学术研讨会论文集[C];2003年

7 程葳;;网络管理与构建和谐城市社会的关系[A];第二届城市科学论坛论文集[C];2006年

8 梁涛;;呼叫中心发展趋势及实业呼叫中心应对[A];广东省通信学会2006年度学术论文集[C];2007年

9 周海伦;;首钢总公司能源管理系统开发[A];中国计量协会冶金分会2007年会论文集[C];2007年

10 焦广民;周玉龙;;互联网对学生负面影响的成因与克服[A];全国教育科研“十五”成果论文集(第五卷)[C];2005年

相关重要报纸文章 前10条

1 本报记者 曹增光;互联网2.0时代已经到来?[N];中国经济时报;2005年

2 Google全球副总裁、大中华区总裁 李开复;迎接互联网明天的无限可能[N];计算机世界;2007年

3 ;帮助分支办公室改善互联网连接性能[N];网络世界;2008年

4 记者 吕冰冰 苏妮;深圳登录全球设计互联网[N];南方日报;2008年

5 记者 吴晓菁;重磅打造“互联网手机”[N];厦门日报;2009年

6 记者 赵陕雄;新一代互联网导航PDA打响价格战[N];中国质量报;2009年

7 本报记者 胡英;过滤互联网内容需采用新招[N];计算机世界;2009年

8 本报记者 梁靓;手机功能向互联网深度延伸[N];中国电子报;2009年

9 记者谢丽容;整治互联网低俗之风取得阶段性成果[N];通信产业报;2009年

10 本报记者 刘丽丽;航天信息 推动ERP与互联网联姻[N];计算机世界;2009年

相关博士学位论文 前10条

1 胡根红;中国古代小品文研究[D];陕西师范大学;2008年

2 李祖明;互联网上的版权保护与限制[D];中国社会科学院研究生院;2002年

3 黄刚;整合与互动[D];中国传媒大学;2007年

4 章淼;互联网端到端拥塞控制的研究[D];清华大学;2004年

5 汪明峰;网络空间的生产与消费[D];华东师范大学;2005年

6 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年

7 陈耀刚;互联网商务主体的参与决策和竞争行为研究[D];清华大学;2003年

8 吴玉荣;互联网与社会主义意识形态建设研究[D];中共中央党校;2004年

9 李婧;应用层组播算法研究[D];中国科学技术大学;2007年

10 张红兵;虚拟企业中知识转移的研究[D];天津大学;2007年

相关硕士学位论文 前10条

1 林楠;文本特征选择算法研究[D];辽宁师范大学;2010年

2 张勇;试论互联网对中日关系的影响[D];外交学院;2005年

3 曾超;论互联网与手机的联姻及其对大众传播的影响[D];广西大学;2005年

4 刘宇波;面向可下载资源的WEB搜索引擎的设计与实现[D];湖南大学;2005年

5 刘君;解析新华网的成功轨迹[D];河北大学;2005年

6 张晶;互联网对中学生学习和人格发展影响的研究[D];延边大学;2005年

7 朱海明;上海信投互联网应用技术有限公司营销战略与策略研究[D];上海海事大学;2005年

8 徐俊霞;网络传播中的政治沟通研究[D];武汉大学;2005年

9 赵微;互联网对高中生道德形成的负面影响与对策研究[D];东北师范大学;2006年

10 梁思艺;互联网环境下涉外民事管辖权制度研究[D];广东外语外贸大学;2006年



本文编号:1786608

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1786608.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2bfc6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com