当前位置:主页 > 管理论文 > 移动网络论文 >

一种主题知识自增长的聚焦网络爬虫

发布时间:2017-12-26 20:33

  本文关键词:一种主题知识自增长的聚焦网络爬虫 出处:《计算机应用与软件》2014年05期  论文类型:期刊论文


  更多相关文章: 聚焦网络爬虫 无监督学习 知识扩展 主题相关度


【摘要】:聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中采用一种无监督的学习技术不断扩展主题知识,从而使爬虫在一个简单的初始主题描述条件下,能够以较高正确率爬取大量网页。同时为便于主题知识的扩展,还提出一种新的主题表示模型,并基于该模型构建了新的网页主题和URL主题相关度方法。最后在真实环境下的实验表明,KAG-Crawler的性能显著高于传统基于文本相似度的聚焦网络爬虫。
[Abstract]:Focusing network crawler is a necessary processing step for various Internet text mining and information retrieval applications. The existing focus network crawler is faced with the challenges of difficult knowledge description and easy to be amplified. We find some properties of existing topic knowledge in web pages, proposes a topic knowledge for self growth focused web crawler KAG-Crawler, in "climbing expanding knowledge using an unsupervised learning technique and process, so as to make the crawler in a simple description of the theme of the initial conditions, at a higher correct rate of crawling a large number of web pages. Meanwhile, in order to facilitate the extension of thematic knowledge, a new topic representation model is also proposed. Based on this model, a new webpage topic and URL topic relevance method are constructed. Finally, the experiment in real environment shows that the performance of KAG-Crawler is significantly higher than that of the traditional focus network crawler based on text similarity.
【作者单位】: 湖南农业大学信息科学与技术学院;湖南农业大学植物保护学院;厦门通融软件科技有限公司;解放军73111部队博士后工作站;湘南学院计算机科学系;
【基金】:湖南省教育厅外来生物灾害预警机制研究(62021612008) 湖南省科技计划资助项目(2013FJ3032) 湖南省哲学社会科学基金项目(13YBA302)
【分类号】:TP393.092;TP391.1
【正文快照】: 0引言因特网蕴藏着大量的有用信息,Web信息检索、Web挖掘和知识发现等应用是人们从因特网上获取和处理信息的重要手段。网络爬虫是这些应用必需的第一个环节,旨在从因特网上将网页采集到本地,供后续的索引构建、信息抽取或文本挖掘等使用。然而,如今的因特网信息量巨大,给网络

【参考文献】

相关期刊论文 前1条

1 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期

【共引文献】

相关期刊论文 前10条

1 刘丰;韩辉;周蕾;齐峻瑶;徐宝梁;;网络信息技术在传染病舆情监测中的应用[J];中国国境卫生检疫杂志;2012年04期

2 马宁;刘怡君;;基于超网络中超边排序算法的网络舆论领袖识别[J];系统工程;2013年09期

3 刘喜文;郑昌兴;王文龙;汤刚强;;构建数据仓库过程中的数据清洗研究[J];图书与情报;2013年05期

4 马宝君;张楠;孙涛;;智慧城市背景下公众反馈大数据分析:概率主题建模的视角[J];电子政务;2013年12期

5 潘善亮;茅琴娇;韩露;;一种基于虚拟社交化的Web服务发现方法研究[J];电信科学;2013年12期

6 易军凯;田立康;;基于类别区分度的文本特征选择算法研究[J];北京化工大学学报(自然科学版);2013年S1期

7 代宽;赵辉;韩冬;宋天勇;;基于向量空间模型的中文网页主题特征项抽取[J];吉林大学学报(信息科学版);2014年01期

8 顾益军;解易;张培晶;;面向有组织犯罪分析的人际关系网络节点重要性评价研究[J];中国人民公安大学学报(自然科学版);2013年04期

9 吴瑞红;吕学强;;基于互联网的术语定义辨析[J];北京大学学报(自然科学版);2014年01期

10 罗琦;;一种最大分类间隔SVDD的多类文本分类算法[J];电讯技术;2014年04期

相关会议论文 前2条

1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年

2 刘权;郭武;;基于核主成分分析的话题跟踪系统[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

相关博士学位论文 前10条

1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年

2 史斌;面向语义网的语义搜索引擎关键技术研究[D];北京工业大学;2010年

3 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年

4 马飞;云数据中心中虚拟机放置和实时迁移研究[D];北京交通大学;2013年

5 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年

6 乐承毅;企业知识与员工知识贡献度集成评价方法及应用研究[D];浙江大学;2013年

7 孙甲申;基于主题模型和随机游走的标签技术研究[D];北京邮电大学;2013年

8 张鹏;数据中心网络的流量管理和优化问题研究[D];北京邮电大学;2013年

9 王宝勋;面向网络社区问答对的语义挖掘研究[D];哈尔滨工业大学;2013年

10 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年

相关硕士学位论文 前10条

1 杨哲;基于Groovy的分布式网络爬虫系统的设计与实现[D];西南交通大学;2010年

2 李锐鑫;Web视频资源的智能发现关键技术研究[D];哈尔滨工业大学;2010年

3 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年

4 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年

5 卢振;面向教育新闻的主题爬虫设计与实现[D];华中科技大学;2011年

6 吴昊;主题爬虫URL分析模型与调度技术研究[D];哈尔滨工程大学;2011年

7 常旭;主题爬虫穿越隧道算法研究与设计[D];山东科技大学;2011年

8 魏霞;面向网络教育的学习评价依据采集系统的研究与实现[D];浙江工业大学;2007年

9 谢德辉;面向刑侦网页的信息抽取与主题爬虫应用研究[D];大连理工大学;2007年

10 朱良峰;主题网络爬虫的研究与设计[D];南京理工大学;2008年

【二级参考文献】

相关期刊论文 前1条

1 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期

【相似文献】

相关期刊论文 前10条

1 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期

2 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期

3 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期

4 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期

5 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期

6 王星;刘李敦;;基于移动代理(Agent)的智能爬虫系统的设计和实现[J];科技资讯;2007年28期

7 赵靖华;;网络性能指标预测法指导任务分配的分布式网页信息获取技术[J];通化师范学院学报;2008年10期

8 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期

9 陶荣;陈燕;;基于Lucene小型搜索引擎的研究与实现[J];大众科技;2010年02期

10 曾文;湛腾西;;网络视频爬虫系统的设计与实现[J];中国科技信息;2010年15期

相关会议论文 前9条

1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

2 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

3 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

4 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

5 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

6 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

7 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年

8 安伦;周斌;贾焰;;在线Web挖掘中的计算资源动态平衡[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

9 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

相关博士学位论文 前1条

1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

相关硕士学位论文 前10条

1 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年

2 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年

3 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年

4 张大伟;基于动态概念图的主题网络爬虫的设计与分析[D];辽宁科技大学;2013年

5 王毅桐;分布式网络爬虫技术研究与实现[D];电子科技大学;2012年

6 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年

7 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年

8 王洪威;主题网络爬虫的分析与设计[D];北京邮电大学;2013年

9 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年

10 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年



本文编号:1338759

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1338759.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d4679***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com