面向Web2.0社区的爬虫关键技术研究
本文关键词:基于Web2.0的综合搜索引擎,由笔耕文化传播整理发布。
《浙江大学》 2011年
面向Web2.0社区的爬虫关键技术研究
高晖
【摘要】:Web 2.0社区是当前最为热门的互联网应用,SNS、微博、在线问答、贴吧等都是其典型代表。这类网站的特点是用户参与网站内容的创建与编辑,改变了以往信息单向发布的模式;此外,大量运用Ajax等富客户端技术提升用户体验,网页加载形式不同于以往的一次性加载,需要依赖于用户的交互操作才能形成最终视图。 由于Web 2.0社区内容构成渠道更为多样化,信息的实效性和发布模式的不确定性较之传统网站大为增强,信息质量良莠不齐,客户端动态内容难于自动获取等,都给传统搜索引擎带来了挑战,现有爬虫技术需要在实时搜索和客户端动态内容索引方面进行改进,才能够适应Web 2.0社区所带来的互联网新浪潮。 在实时爬虫方面,本文着重研究基于发布模式预测的爬虫调度策略,通过对本地索引质量标准的改进,引入社区网页内容权重评价体系,将其与索引时延因素结合作为新的度量标准,从而将爬虫调度问题归约为本地索引质量优化问题,利用网站历史发布数据挖掘出最优的爬行计划。 在Ajax爬虫方面,由于Ajax单个页面中包含多个状态,’本文援引了经典的状态转换图模型对Ajax网站进行建模,并且引入基于XPath特征的无效元素检测、基于XHR监听的异步请求优化等手段,改进原有算法无关状态多、状态爆炸、识别重复状态困难、性能低下等缺陷,相比传统爬虫又在网页召回率方面获得了大幅提升。 最后,本文提出了面向Web 2.0社区的爬虫原型系统的设计与实现,通过将其成功应用于校内新闻搜索引擎,验证了本文观点的正确性和有效性。
【关键词】:
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前3条
1 郭浩;陆余良;刘金红;;一种基于状态转换图的Ajax爬行算法[J];计算机应用研究;2009年11期
2 程陈;齐开悦;陈剑波;;基于Web2.0的综合搜索引擎[J];计算机应用与软件;2010年01期
3 郑兴华;;小议Web2.0时代的搜索引擎[J];情报探索;2008年11期
【共引文献】
中国期刊全文数据库 前7条
1 李冰岩;黄地龙;郝园;;基于Web的搜索引擎算法的研究[J];电脑与电信;2010年05期
2 安岚;;传播中的选择:一次对中国电影史的检阅[J];电影文学;2012年15期
3 于瑞华;;基于WEB2.0的电影营销策略研究[J];电影文学;2012年15期
4 陆亮;李东;;支持AJAX的网络爬虫设计与实现[J];智能计算机与应用;2013年06期
5 杨俊峰;黎建辉;杨风雷;;深层网站Ajax页面数据采集研究综述[J];计算机应用研究;2013年06期
6 陈莉莉;张丽;刘正龙;;搜索引擎中基于状态的Ajax动态网页提取研究[J];计算机应用与软件;2013年07期
7 夏天;;Ajax站点数据采集研究综述[J];现代图书情报技术;2010年03期
中国硕士学位论文全文数据库 前10条
1 黄卫平;个性化搜索引擎的研究与实现[D];武汉理工大学;2011年
2 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
3 刘烨辉;基于知识的应用生命周期管理研究[D];中南大学;2011年
4 相志洪;基于Web2.0的农村科技信息推送系统设计与实现[D];天津大学;2011年
5 陈飞;实时垂直搜索引擎的爬虫技术研究[D];大连理工大学;2011年
6 张婷;分布式网络搜索引擎的研究与实现[D];解放军信息工程大学;2011年
7 许龙龙;基于Ajax技术的J2EE应用框架的研究与实现[D];西北大学;2010年
8 陈飞;互联网“人肉搜索”伦理审视[D];重庆师范大学;2010年
9 乐齐菁;电信运行维护知识库系统的分析和设计[D];南京理工大学;2012年
10 刘凡凡;支持AJAX的定址网络爬虫系统的研究与实现[D];北京邮电大学;2013年
【二级参考文献】
中国期刊全文数据库 前3条
1 卢亮;;搜索引擎的Web 2.0[J];互联网天地;2005年12期
2 张自然;金燕;;Web2.0环境下的网络信息检索[J];情报资料工作;2007年05期
3 屈长青,李艳芳;元搜索引擎的关键技术[J];现代计算机(专业版);2004年05期
【相似文献】
中国期刊全文数据库 前10条
1 宋春阳;金可音;;Web搜索引擎技术综述[J];现代计算机(专业版);2008年05期
2 赵力;;网站全文搜索引擎技术的初步研究及应用[J];科技信息;2009年11期
3 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
4 严良达;;基于Lucene搜索引擎的设计与实现[J];宁波职业技术学院学报;2009年02期
5 宁彬;;Web数据挖掘综述[J];华南金融电脑;2006年02期
6 陈学锋,周亚敏,敖青云,白英彩;分布式实时网络监测系统的设计与实现[J];计算机工程;2002年06期
7 蒋霞东;Web搜索引擎系统的设计与实现[J];河海大学常州分校学报;2003年01期
8 梁延华,王振兴;Web搜索引擎评估技术研究[J];信息工程大学学报;2004年01期
9 李俊青;季文天;彭菊萍;;局域网FTP搜索引擎的建立[J];计算机与信息技术;2007年09期
10 李文奇,张忠能;当前几种Web查询语言的分析与比较[J];计算机应用研究;2003年05期
中国重要会议论文全文数据库 前10条
1 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
6 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
7 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
9 袁柳;李战怀;;基于语义搜索的Web服务匹配[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 边歆;[N];网络世界;2009年
2 本报记者 边歆;[N];网络世界;2010年
3 ;[N];人民邮电;2010年
4 ;[N];网络世界;2009年
5 赵晓涛;[N];网络世界;2008年
6 本报记者 赵晓涛;[N];网络世界;2008年
7 彭敏;[N];电脑商报;2009年
8 本报记者 毛江华;[N];计算机世界;2009年
9 闫冰;[N];网络世界;2009年
10 赵晓涛;[N];网络世界;2009年
中国博士学位论文全文数据库 前10条
1 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
2 刘铁江;组合Web服务选择、部署与执行的关键技术研究[D];复旦大学;2011年
3 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
4 陈浩;Web搜索的用户兴趣与智能优化研究[D];中南大学;2012年
5 毛一梅;基于服务质量的Web服务关键技术研究[D];东华大学;2009年
6 王泽来;基于Web服务集成的物流应急关键技术研究[D];天津大学;2012年
7 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
8 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
9 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
10 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 黄华;基于搜索引擎和语义的Web服务发现研究[D];武汉理工大学;2011年
2 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年
3 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
4 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
5 庞永杰;基于Web的社会网络搜索中人名同一性判断方法研究[D];华中科技大学;2011年
6 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
7 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年
8 周浩;面向网络舆情分析的Web数据源获取关键技术研究[D];西安理工大学;2010年
9 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
10 魏一帆;分布式信息采集系统Web划分技术研究[D];哈尔滨工业大学;2010年
本文关键词:基于Web2.0的综合搜索引擎,由笔耕文化传播整理发布。
,本文编号:109067
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/109067.html