当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向Web2.0社区的爬虫关键技术研究

发布时间:2016-09-04 17:10

  本文关键词:基于Web2.0的综合搜索引擎,由笔耕文化传播整理发布。


《浙江大学》 2011年

面向Web2.0社区的爬虫关键技术研究

高晖  

【摘要】:Web 2.0社区是当前最为热门的互联网应用,SNS、微博、在线问答、贴吧等都是其典型代表。这类网站的特点是用户参与网站内容的创建与编辑,改变了以往信息单向发布的模式;此外,大量运用Ajax等富客户端技术提升用户体验,网页加载形式不同于以往的一次性加载,需要依赖于用户的交互操作才能形成最终视图。 由于Web 2.0社区内容构成渠道更为多样化,信息的实效性和发布模式的不确定性较之传统网站大为增强,信息质量良莠不齐,客户端动态内容难于自动获取等,都给传统搜索引擎带来了挑战,现有爬虫技术需要在实时搜索和客户端动态内容索引方面进行改进,才能够适应Web 2.0社区所带来的互联网新浪潮。 在实时爬虫方面,本文着重研究基于发布模式预测的爬虫调度策略,通过对本地索引质量标准的改进,引入社区网页内容权重评价体系,将其与索引时延因素结合作为新的度量标准,从而将爬虫调度问题归约为本地索引质量优化问题,利用网站历史发布数据挖掘出最优的爬行计划。 在Ajax爬虫方面,由于Ajax单个页面中包含多个状态,’本文援引了经典的状态转换图模型对Ajax网站进行建模,并且引入基于XPath特征的无效元素检测、基于XHR监听的异步请求优化等手段,改进原有算法无关状态多、状态爆炸、识别重复状态困难、性能低下等缺陷,相比传统爬虫又在网页召回率方面获得了大幅提升。 最后,本文提出了面向Web 2.0社区的爬虫原型系统的设计与实现,通过将其成功应用于校内新闻搜索引擎,验证了本文观点的正确性和有效性。

【关键词】:
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【目录】:

  • 摘要3-4
  • Abstract4-9
  • 第1章 绪论9-15
  • 1.1 课题背景9
  • 1.2 Web 2.0社区简介9-12
  • 1.2.1 Web 2.0社区的特点9-10
  • 1.2.2 典型的Web 2.0社区10-12
  • 1.3 传统搜索引擎对Web 2.0社区的支持12-13
  • 1.3.1 实时搜索12
  • 1.3.2 动态内容索引12-13
  • 1.4 本文工作13-14
  • 1.5 章节安排14-15
  • 第2章 面向Web 2.0社区的爬虫技术综述15-28
  • 2.1 实时搜索相关研究15-23
  • 2.1.1 主动模式的爬虫15-19
  • 2.1.2 被动模式的爬虫19-21
  • 2.1.3 实时索引21-23
  • 2.2 Ajax爬虫相关研究23-27
  • 2.2.1 动态脚本解析24-25
  • 2.2.2 状态转换图模型25-26
  • 2.2.3 优化与改进工作26-27
  • 2.3 本章小结27-28
  • 第3章 质量优先的实时爬虫调度策略28-42
  • 3.1 索引质量指标28-30
  • 3.1.1 索引时延28
  • 3.1.2 内容权重28-30
  • 3.1.3 综合度量指标30
  • 3.2 面向质量的爬虫调度策略优化问题30
  • 3.3 面向质量的爬虫调度策略优化算法30-35
  • 3.3.1 内容权重发布模式30-34
  • 3.3.2 概率预测模型34
  • 3.3.3 优化的爬虫调度算法34-35
  • 3.4 实验比较35-40
  • 3.4.1 实验设置36
  • 3.4.2 实验数据分析36-38
  • 3.4.3 概率预测模型训练38-39
  • 3.4.4 不同爬虫调度策略比较39
  • 3.4.5 实验结论39-40
  • 3.5 本章小结40-42
  • 第4章 基于状态转换图的动态网页抓取42-57
  • 4.1 状态转换图模型42-48
  • 4.1.1 状态转换图定义43-44
  • 4.1.2 状态转换图示例44
  • 4.1.3 基于状态转换图的广度优先爬行算法44-45
  • 4.1.4 算法存在的主要问题45-48
  • 4.2 算法改进48-51
  • 4.2.1 基于XPath特征的无效元素检测48-49
  • 4.2.2 基于XHR监听的异步请求优化49-51
  • 4.3 优化的Ajax爬虫算法51-53
  • 4.4 实验比较53-56
  • 4.4.1 实验设置53
  • 4.4.2 网页召回率比较53-54
  • 4.4.3 有效状态比例比较54-55
  • 4.4.4 异步请求数比较55-56
  • 4.4.5 实验结论56
  • 4.5 本章小结56-57
  • 第5章 面向Web 2.0社区的爬虫原型57-61
  • 5.1 总体设计57
  • 5.2 模块介绍57-59
  • 5.2.1 调度器57-58
  • 5.2.2 嵌入式浏览器58
  • 5.2.3 机器人58
  • 5.2.4 监听器58-59
  • 5.2.5 有限状态机59
  • 5.2.6 控制器59
  • 5.3 系统应用59-60
  • 5.4 本章小结60-61
  • 第6章 总结与展望61-64
  • 6.1 贡献和创新61-62
  • 6.2 不足和局限62-63
  • 6.3 未来展望63-64
  • 参考文献64-67
  • 攻读硕士学位期间主要的研究成果67-68
  • 致谢68
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【参考文献】

    中国期刊全文数据库 前3条

    1 郭浩;陆余良;刘金红;;一种基于状态转换图的Ajax爬行算法[J];计算机应用研究;2009年11期

    2 程陈;齐开悦;陈剑波;;基于Web2.0的综合搜索引擎[J];计算机应用与软件;2010年01期

    3 郑兴华;;小议Web2.0时代的搜索引擎[J];情报探索;2008年11期

    【共引文献】

    中国期刊全文数据库 前7条

    1 李冰岩;黄地龙;郝园;;基于Web的搜索引擎算法的研究[J];电脑与电信;2010年05期

    2 安岚;;传播中的选择:一次对中国电影史的检阅[J];电影文学;2012年15期

    3 于瑞华;;基于WEB2.0的电影营销策略研究[J];电影文学;2012年15期

    4 陆亮;李东;;支持AJAX的网络爬虫设计与实现[J];智能计算机与应用;2013年06期

    5 杨俊峰;黎建辉;杨风雷;;深层网站Ajax页面数据采集研究综述[J];计算机应用研究;2013年06期

    6 陈莉莉;张丽;刘正龙;;搜索引擎中基于状态的Ajax动态网页提取研究[J];计算机应用与软件;2013年07期

    7 夏天;;Ajax站点数据采集研究综述[J];现代图书情报技术;2010年03期

    中国硕士学位论文全文数据库 前10条

    1 黄卫平;个性化搜索引擎的研究与实现[D];武汉理工大学;2011年

    2 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年

    3 刘烨辉;基于知识的应用生命周期管理研究[D];中南大学;2011年

    4 相志洪;基于Web2.0的农村科技信息推送系统设计与实现[D];天津大学;2011年

    5 陈飞;实时垂直搜索引擎的爬虫技术研究[D];大连理工大学;2011年

    6 张婷;分布式网络搜索引擎的研究与实现[D];解放军信息工程大学;2011年

    7 许龙龙;基于Ajax技术的J2EE应用框架的研究与实现[D];西北大学;2010年

    8 陈飞;互联网“人肉搜索”伦理审视[D];重庆师范大学;2010年

    9 乐齐菁;电信运行维护知识库系统的分析和设计[D];南京理工大学;2012年

    10 刘凡凡;支持AJAX的定址网络爬虫系统的研究与实现[D];北京邮电大学;2013年

    【二级参考文献】

    中国期刊全文数据库 前3条

    1 卢亮;;搜索引擎的Web 2.0[J];互联网天地;2005年12期

    2 张自然;金燕;;Web2.0环境下的网络信息检索[J];情报资料工作;2007年05期

    3 屈长青,李艳芳;元搜索引擎的关键技术[J];现代计算机(专业版);2004年05期

    【相似文献】

    中国期刊全文数据库 前10条

    1 宋春阳;金可音;;Web搜索引擎技术综述[J];现代计算机(专业版);2008年05期

    2 赵力;;网站全文搜索引擎技术的初步研究及应用[J];科技信息;2009年11期

    3 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期

    4 严良达;;基于Lucene搜索引擎的设计与实现[J];宁波职业技术学院学报;2009年02期

    5 宁彬;;Web数据挖掘综述[J];华南金融电脑;2006年02期

    6 陈学锋,周亚敏,敖青云,白英彩;分布式实时网络监测系统的设计与实现[J];计算机工程;2002年06期

    7 蒋霞东;Web搜索引擎系统的设计与实现[J];河海大学常州分校学报;2003年01期

    8 梁延华,王振兴;Web搜索引擎评估技术研究[J];信息工程大学学报;2004年01期

    9 李俊青;季文天;彭菊萍;;局域网FTP搜索引擎的建立[J];计算机与信息技术;2007年09期

    10 李文奇,张忠能;当前几种Web查询语言的分析与比较[J];计算机应用研究;2003年05期

    中国重要会议论文全文数据库 前10条

    1 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

    2 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

    3 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

    4 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

    5 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年

    6 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

    7 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

    8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年

    9 袁柳;李战怀;;基于语义搜索的Web服务匹配[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

    10 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

    中国重要报纸全文数据库 前10条

    1 边歆;[N];网络世界;2009年

    2 本报记者 边歆;[N];网络世界;2010年

    3 ;[N];人民邮电;2010年

    4 ;[N];网络世界;2009年

    5 赵晓涛;[N];网络世界;2008年

    6 本报记者 赵晓涛;[N];网络世界;2008年

    7 彭敏;[N];电脑商报;2009年

    8 本报记者 毛江华;[N];计算机世界;2009年

    9 闫冰;[N];网络世界;2009年

    10 赵晓涛;[N];网络世界;2009年

    中国博士学位论文全文数据库 前10条

    1 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年

    2 刘铁江;组合Web服务选择、部署与执行的关键技术研究[D];复旦大学;2011年

    3 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年

    4 陈浩;Web搜索的用户兴趣与智能优化研究[D];中南大学;2012年

    5 毛一梅;基于服务质量的Web服务关键技术研究[D];东华大学;2009年

    6 王泽来;基于Web服务集成的物流应急关键技术研究[D];天津大学;2012年

    7 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年

    8 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年

    9 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年

    10 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年

    中国硕士学位论文全文数据库 前10条

    1 黄华;基于搜索引擎和语义的Web服务发现研究[D];武汉理工大学;2011年

    2 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年

    3 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年

    4 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年

    5 庞永杰;基于Web的社会网络搜索中人名同一性判断方法研究[D];华中科技大学;2011年

    6 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年

    7 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年

    8 周浩;面向网络舆情分析的Web数据源获取关键技术研究[D];西安理工大学;2010年

    9 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年

    10 魏一帆;分布式信息采集系统Web划分技术研究[D];哈尔滨工业大学;2010年


      本文关键词:基于Web2.0的综合搜索引擎,由笔耕文化传播整理发布。



    本文编号:109067

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/109067.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户afa4c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com