当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Heritrix的网络爬虫研究与应用

发布时间:2019-05-11 16:19
【摘要】:主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。
[Abstract]:This paper mainly introduces the topic search engine, the basic concept of web crawler and the architecture of Heritrix system, analyzes the workflow of Heritrix, and extends and optimizes it on the basis of Heritrix framework. Through an example, the grasping of book information in Jingdong Network is realized, which provides web information resources for the establishment of vertical search engine for book information.
【作者单位】: 北方工业大学;
【基金】:北京市教委科技发展计划项目(KM201310009001) 国家科技支撑项目(2012BAH04F03)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前6条

1 秦海峰;许南山;山岚;;基于P2P架构的搜索引擎技术探究[J];福建电脑;2008年07期

2 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期

3 白万民;苏希乐;;Heritrix在垂直搜索引擎中的应用[J];计算机时代;2011年09期

4 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

5 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期

6 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期

【共引文献】

相关期刊论文 前10条

1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期

2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期

3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

4 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期

5 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期

6 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期

7 刘向君;;面向P2P的个性化搜索引擎的探讨[J];电脑知识与技术;2009年29期

8 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期

9 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期

10 宋永生;;基于Android的商品比价系统的设计与实现[J];电脑知识与技术;2011年18期

相关会议论文 前7条

1 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

2 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

3 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

4 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年

6 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年

7 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年

相关博士学位论文 前10条

1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年

5 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

6 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

7 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年

8 米杨;基于顶级本体整合的医学领域语义标注研究[D];吉林大学;2012年

9 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年

10 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年

相关硕士学位论文 前10条

1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年

2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年

3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年

4 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年

5 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年

6 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年

7 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年

8 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年

9 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年

10 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年

【二级参考文献】

相关期刊论文 前10条

1 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期

2 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期

3 秦海峰;许南山;山岚;;基于P2P架构的搜索引擎技术探究[J];福建电脑;2008年07期

4 黄建莲;中国搜索引擎服务市场的现状及发展[J];华北科技学院学报;2005年03期

5 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期

6 李蕾,王楠,张剑,钟义信,郭祥昊,贾自燕;中文搜索引擎概念检索初探[J];计算机工程与应用;2000年06期

7 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期

8 吴友政,赵军,段湘煜,徐波;问答式检索技术及评测研究综述[J];中文信息学报;2005年03期

9 曹二堂,刘玉林;基于语义理解的智能搜索引擎的研究[J];情报杂志;2005年06期

10 王敏,杨炳儒;基于主题的个性化元搜索引擎的设计与实现[J];情报杂志;2005年07期

相关硕士学位论文 前1条

1 杨溥;搜索引擎中爬虫的若干问题研究[D];北京邮电大学;2009年

【相似文献】

相关期刊论文 前10条

1 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期

2 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期

3 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期

4 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期

5 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期

6 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期

7 杨娜;周长胜;马志强;丁维;;基于校园网的搜索器技术研究与改进[J];计算机与数字工程;2007年03期

8 徐远超;刘江华;刘丽珍;关永;;基于Web的网络爬虫的设计与实现[J];微计算机信息;2007年21期

9 薛建春;段红梅;蔡松;;定题搜索引擎的设计与实现[J];微计算机信息;2007年21期

10 王星;刘李敦;;基于移动代理(Agent)的智能爬虫系统的设计和实现[J];科技资讯;2007年28期

相关会议论文 前10条

1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

2 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

3 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

4 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

5 汪沛;;Isolex股市预测系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年

6 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

7 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

8 安伦;周斌;贾焰;;在线Web挖掘中的计算资源动态平衡[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

9 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

10 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年

相关博士学位论文 前1条

1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

相关硕士学位论文 前10条

1 王攀;主题搜索引擎的设计与实现[D];华中科技大学;2007年

2 刘运佳;基于Lucene和Heririx构建搜索引擎的研究和示例实现[D];电子科技大学;2008年

3 范先爽;基于个性化服务的汽车信息搜索引擎的研究[D];武汉理工大学;2011年

4 叶继平;基于Lucene的全文信息检索技术的研究与应用[D];江南大学;2012年

5 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年

6 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年

7 王小森;基于Solr的搜索引擎的设计与实现[D];北京邮电大学;2011年

8 吕晓昶;面向交易信息的垂直搜索引擎搜索机制研究与实现[D];东北石油大学;2011年

9 汪明强;基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现[D];河北工业大学;2011年

10 苏希乐;面向手机信息的垂直搜索引擎[D];西安工业大学;2012年



本文编号:2474651

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2474651.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ffeee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com