当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于分布式精准采集的垂直搜索引擎的研究与实现

发布时间:2016-07-13 20:05

  本文关键词:综合搜索引擎与垂直搜索引擎的比较研究,由笔耕文化传播整理发布。


《北京邮电大学》 2011年

基于分布式精准采集的垂直搜索引擎的研究与实现

周兵  

【摘要】:随着网页信息的爆炸性增长,搜索引擎的使用价值也越来越高,成为网络用户必不可少的工具,为用户提供信息导航和查询服务。它整合了互联网上众多的网页资源,根据用户查询的关键词提供相关性网页,并按照相关性排序,是整个互联网的入口。目前,综合搜索引擎是为用户提供查询服务的主力军,但它的综合性,决定了其不能满足专业人群对专门领域的精准化信息需求服务。对信息的需求是多元化的,因此搜索引擎的服务模式也必将出现细分,针对不同领域提供更加精确的行业信息,这就促进了垂直搜索的蓬勃发展。 本课题研究如何建立一个完整的提供精准信息供用户查询的垂直搜索引擎,选取以论坛为主,包含博客和热点新闻网站在内的URL集合作为数据目标,搭建了一个供用户浏览热点话题,搜索热点讨论信息的平台,配合综合搜索引擎,在垂直方向上满足用户查询需求的搜索引擎。在研究的过程中,主要工作和创新点如下:1.提出一种高精确度信息采集方法;2.提出一种分布式网络爬虫架构及交互协议;3.提出一种基于爬取周期的分布式分发策略;4.设计基于Lucene的索引端和检索端并实现按域检索和索引的批量更新。 该垂直搜索引擎由网络爬虫、索引与检索三个模块组成,其中。分布式垂直爬虫模块的设计和实现是本课题研究的重点,也是实现精准信息采集区别于传统搜索引擎的关键所在。垂直爬虫依托于垂直搜索引擎的概念而提出,是指能深入地爬取与分析网络信息,相对于通用爬虫在广度上追求全面地信息获取,垂直爬虫致力于以最少的爬虫服务资源爬取某个领域内最有价值的web资源,并最大化得过滤无用信息,直接获得十分精准的信息。

【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【目录】:

  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 绪论9-16
  • 1.1 课题研究意义及发展现状9-11
  • 1.1.1 课题的研究意义9-10
  • 1.1.2 国内外发展现状10-11
  • 1.2 课题主要研究内容11-14
  • 1.2.1 垂直搜索引擎的基本架构和原理11-13
  • 1.2.2 垂直搜索引擎的关键技术13-14
  • 1.3 论文的主要研究成果14
  • 1.4 论文的组织14-16
  • 第二章 研究现状综述16-20
  • 2.1 分布式爬虫研究综述16-17
  • 2.2 精准信息采集研究综述17-18
  • 2.3 垂直搜索引擎研究综述18-20
  • 第三章 分布式爬虫模块的设计与实现20-45
  • 3.1 设计目标20-21
  • 3.2 分布式爬虫结构设计21-23
  • 3.3 Crawler详细设计23-33
  • 3.3.1 基于模板定制的垂直爬取方法23-27
  • 3.3.2 Crawler的工作流程27-30
  • 3.3.3 Crawler的模块设计30-33
  • 3.4 Crawler Manager详细设计33-45
  • 3.4.1 Crawler Manager的主要任务33-34
  • 3.4.2 Crawler Manager的模块划分34-41
  • 3.4.3 基于爬取周期的分布式分发策略41-45
  • 第四章 索引与检索模块的设计与实现45-55
  • 4.1 索引与检索的基本原理45-48
  • 4.1.1 索引简介45
  • 4.1.2 倒排索引45-47
  • 4.1.3 索引词47
  • 4.1.4 相关性47-48
  • 4.2 基于Lucene的索引与检索模块48-55
  • 4.2.1 Lucene简介48-51
  • 4.2.2 索引与检索过程51-52
  • 4.2.3 按域检索52-53
  • 4.2.4 索引批量更新53-55
  • 第五章 实验测评55-61
  • 5.1 网络爬虫性能实验55-58
  • 5.2 搜索引擎性能实验58-61
  • 第六章 总结61-63
  • 6.1 论文工作总结61
  • 6.2 未来工作展望61-63
  • 参考文献63-65
  • 致谢65-66
  • 攻读学位期间发表的学术论文66
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【参考文献】

    中国期刊全文数据库 前9条

    1 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期

    2 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期

    3 柳佳刚;刘高嵩;贺令亚;陈山;;基于Web的信息抽取技术现状与发展[J];福建电脑;2007年07期

    4 方启明;杨广文;武永卫;朱安平;郑纬民;;面向P2P搜索的可定制聚焦网络爬虫[J];华中科技大学学报(自然科学版);2007年S2期

    5 白鹤;汤迪斌;王劲林;;分布式多主题网络爬虫系统的研究与实现[J];计算机工程;2009年19期

    6 杜亚军,严兵,宋亮;爬行虫算法设计与程序实现[J];计算机应用;2004年01期

    7 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期

    8 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式Web爬虫[J];软件学报;2010年05期

    9 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期

    中国硕士学位论文全文数据库 前3条

    1 李毅;半结构化文档中语义信息抽取方法的研究[D];清华大学;2004年

    2 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年

    3 李广丽;垂直搜索引擎的研究与设计[D];华东交通大学;2008年

    【共引文献】

    中国期刊全文数据库 前10条

    1 张帆;林建;;智能搜索引擎信息过滤机制研究[J];图书与情报;2007年04期

    2 祝伟华;李嘉毅;刘斌斌;;二手汽车交易信息垂直搜索网的设计[J];重庆工学院学报(自然科学版);2008年08期

    3 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期

    4 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期

    5 马海波;陈时勇;;基于网页等级的PageRank算法改进[J];大连交通大学学报;2010年02期

    6 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期

    7 余承健;;基于表格语义的Web信息抽取方法的研究[J];电脑知识与技术;2008年12期

    8 刘金亮;吴芳;孟海江;;智能化垂直搜索系统的构建[J];电脑知识与技术;2010年02期

    9 赵颖斯;刘云;;BBS舆情系统的数据采集方法[J];电信快报;2008年12期

    10 李斌;;浅谈web信息抽取[J];大众科技;2010年04期

    中国重要会议论文全文数据库 前5条

    1 吴珊;杨桦;;基于日志挖掘的Web预取模型[A];2006年电气工程教育专业委员会年会论文集[C];2006年

    2 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年

    3 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

    4 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年

    5 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2012年

    中国博士学位论文全文数据库 前2条

    1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

    2 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年

    中国硕士学位论文全文数据库 前10条

    1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年

    2 曹仲伟;FTP搜索引擎的关键技术研究[D];湖北工业大学;2011年

    3 文星;基于位置感知的Web文本搜索技术研究[D];大连海事大学;2011年

    4 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年

    5 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年

    6 高晴;基于Web信息抽取的舆论传播分析[D];北京邮电大学;2011年

    7 刘欢;职位匹配系统的设计与实现[D];华东师范大学;2011年

    8 刘志伟;数学搜索引擎研究[D];兰州大学;2011年

    9 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年

    10 何忠育;分布式社会网络分析支撑系统研究与应用[D];广东工业大学;2011年

    【二级参考文献】

    中国期刊全文数据库 前10条

    1 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期

    2 唐培和,杨新伦,刘浩;Google搜索引擎及其实现技术[J];广西工学院学报;2004年02期

    3 黄建莲;中国搜索引擎服务市场的现状及发展[J];华北科技学院学报;2005年03期

    4 张红斌;;网上求职机器人的软件设计[J];华东交通大学学报;2006年01期

    5 文坤梅,卢正鼎,叶卫国,金莉;搜索引擎中页面更新策略的分析与改进[J];华中科技大学学报(自然科学版);2002年12期

    6 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期

    7 许学标,顾宁,施伯乐;半结构化数据模型及查询语言[J];计算机研究与发展;1998年10期

    8 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期

    9 王继民;国内综合性搜索引擎时新性的计算[J];计算机工程与应用;2003年21期

    10 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期

    中国硕士学位论文全文数据库 前8条

    1 吴东华;Web信息获取技术研究[D];南京理工大学;2004年

    2 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年

    3 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年

    4 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年

    5 陈勇;中医药主题搜索网络机器人的研究与实现[D];西南交通大学;2005年

    6 曾义聪;基于概念树的主题爬取技术研究[D];湖南大学;2005年

    7 姚勇;分布式Web挖掘与搜索的研究与实现[D];西安电子科技大学;2006年

    8 吴海明;基于Lucene的搜索引擎技术的研究与改进[D];暨南大学;2006年

    【相似文献】

    中国期刊全文数据库 前10条

    1 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期

    2 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期

    3 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期

    4 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期

    5 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期

    6 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期

    7 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期

    8 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期

    9 陈利国;刘忠民;;搜索引擎的工作原理和发展趋势[J];电脑知识与技术(学术交流);2007年23期

    10 张敏;;基于本体的垂直搜索引擎的研究[J];软件导刊;2010年02期

    中国重要会议论文全文数据库 前10条

    1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

    2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

    4 韩希先;李建中;;分布式有序表中一种有效的在线计划批量插入方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

    5 杨柳;钟诚;陆向艳;;基于P2P网络的分布式聚类算法研究分析[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年

    6 郭柯;代璐;周林;;分布式并网发电系统孤岛检测方法综述[A];重庆市电机工程学会2010年学术会议论文集[C];2010年

    7 吴成海;张克芳;;跨平台分布式自动测试系统设计[A];全国第二届总线技术与测控系统工程学术报告会论文集[C];2001年

    8 张德明;;构建分布式声纳信号处理系统[A];中国声学学会2002年全国声学学术会议论文集[C];2002年

    9 李其莹;张洪霞;;配电网中实现小电流接地选线一种方案[A];华东六省一市电机工程(电力)学会输配电技术研讨会2002年年会山东电机工程学会交流论文集[C];2002年

    10 周详;王龙明;;建立分布式防护的安全体系[A];中国烟草行业信息化研讨会论文集[C];2004年

    中国重要报纸全文数据库 前10条

    1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年

    2 王艳;[N];中国旅游报;2000年

    3 赛迪网 方刚;[N];中国计算机报;2000年

    4 王靖;[N];人民日报海外版;2000年

    5 记者 王浒;[N];中国旅游报;2009年

    6 记者 张磊;[N];中国电力报;2004年

    7 盖俊飞 林楠;[N];电脑报;2003年

    8 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;[N];中国计算机报;2005年

    9 国防科学技术大学计算机学院软件所 董勇 周恩强;[N];中国计算机报;2005年

    10 李芸 星际网络公司;[N];计算机世界;2002年

    中国博士学位论文全文数据库 前10条

    1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

    2 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

    3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

    4 王宇翔;分布式网络地理信息系统研究[D];中国科学院研究生院(遥感应用研究所);2002年

    5 董红军;基于多Agent的分布式CAPP及工艺信息管理研究[D];西北工业大学;2000年

    6 娄渊胜;基于构件的分布式防汛信息系统框架研究[D];河海大学;2002年

    7 刘峰;仪用主从耦合分布式并行处理容错系统体系结构研究[D];浙江大学;2003年

    8 唐秋华;分布式虚拟环境建模研究[D];武汉理工大学;2005年

    9 王加虎;分布式水文模型理论与方法研究[D];河海大学;2006年

    10 傅涛;基于数据挖掘的分布式网络入侵协同检测系统研究及实现[D];南京理工大学;2008年

    中国硕士学位论文全文数据库 前10条

    1 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年

    2 王鹏;垂直搜索引擎的研究[D];武汉理工大学;2010年

    3 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年

    4 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年

    5 刘大伸;垂直搜索引擎技术的研究及实现[D];东北大学;2008年

    6 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年

    7 张倩;教育信息垂直搜索引擎的研究[D];吉林大学;2012年

    8 东兴;垂直搜索引擎关键技术研究[D];浙江理工大学;2012年

    9 杨硕;垂直搜索引擎的研究与实现[D];首都师范大学;2012年

    10 胡圣洁;学术论文垂直搜索引擎的架构与实现[D];山东大学;2012年


      本文关键词:综合搜索引擎与垂直搜索引擎的比较研究,,由笔耕文化传播整理发布。



    本文编号:70446

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/70446.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户bef56***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com