Ajax友好的网络爬虫设计与实现
本文关键词:LUCENE实现的基于RSS的博客搜索引擎,由笔耕文化传播整理发布。
《暨南大学》 2011年
Ajax友好的网络爬虫设计与实现
张媚
【摘要】:随着以用户为核心的新一代Web应用模式——Web2.0如火如荼,Ajax技术获得了广泛应用,比如网易博客、卓越亚马逊、Google等。Ajax采用JavaScript驱动的异步请求/响应机制,而传统爬虫缺乏对Javascript语义上的理解,无法模拟触发Javascript的异步调用并解析返回的异步数据。此外在Ajax的应用中,Javascript会对DOM结构进行大量地变动,通过DOM操作动态更新页面内容,而传统网络爬虫默认页面的DOM结构是相对静态不变的。Ajax技术的应用给传统网络爬虫造成很大障碍,必然影响搜索引擎的信息采集。 针对上述问题,本文通过HTTP请求,获取网页源代码信息。构建DOM树并对页面进行分析处理,去掉噪声信息。通过遍历DOM树提取其中JavaScript脚本代码和文件。构建浏览器内置对象,然后利用开源的脚本解析引擎Rhino跟踪执行这些JavaScript代码,从而实现Ajax页面内动态加载的超链接地址的获取。并进一步对解析后的页面采用XPath表达式快速定位需要抓取的内容,生成抽取规则,以XML格式存储抽取规则和数据,并使用XSLT进行转换最终以HTML页面的形式呈现。最终解决Ajax网站中URL获取以及动态内容的获取。 本文实现了Ajax友好的网络爬虫系统,提出浏览器内置对象的本地构建,利用Rhino解析JavaScript脚本中的Ajax调用,获得其异步请求返回的数据,为Ajax友好的网络爬虫提供了新的解决方案。最后通过实验,证明本文研究的可行性。
【关键词】:
【学位授予单位】:暨南大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【引证文献】
中国期刊全文数据库 前1条
1 王益强;赵静;;网页文本数据自动采集方法综述[J];信息与电脑(理论版);2012年09期
中国硕士学位论文全文数据库 前2条
1 高龙;搜索引擎中通用爬虫系统的研究与设计[D];吉林大学;2013年
2 钟少君;面向Ajax的搜索引擎技术研究[D];浙江大学;2012年
【参考文献】
中国期刊全文数据库 前1条
1 王映,于满泉,李盛韬,王斌,余智华;JavaScript引擎在动态网页采集技术中的应用[J];计算机应用;2004年02期
中国硕士学位论文全文数据库 前2条
1 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年
2 曾伟辉;支持AJAX的网络爬虫系统设计与实现[D];中国科学技术大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 王晶;陈卫卫;;AJAX搜索引擎研究[J];电脑知识与技术;2009年19期
2 周思思;袁晓红;;社交网络信息采集技术研究与实现[J];电子世界;2012年04期
3 陈源恩;陈志伟;曾文华;;脚本语言在核磁共振谱仪软件系统中的应用[J];福建电脑;2010年01期
4 陈健瑜;;网页动态页面采集关键技术研究[J];硅谷;2009年12期
5 李华波;吴礼发;赖海光;郑成辉;黄康宇;;有效的爬行Ajax页面的网络爬行算法[J];电子科技大学学报;2013年01期
6 林振洲;;VFP技术在网页数据采集中的应用——以高校数字资源建设为例[J];计算机光盘软件与应用;2013年14期
7 王娟;唐宝珍;;基于兴趣的轻博客网站拓扑特性分析[J];电脑知识与技术;2013年22期
8 陆亮;李东;;支持AJAX的网络爬虫设计与实现[J];智能计算机与应用;2013年06期
9 李政;孟德光;董艳英;鲁艳丽;姚素玲;;网络课程通用术语查询系统设计[J];河北科技师范学院学报;2006年03期
10 段青玲;杨仁刚;朱杨;;一种表单Ajax信息项提取方法[J];计算机工程;2011年03期
中国重要会议论文全文数据库 前1条
1 李蕊;魏更宇;王枞;张冬梅;;Rhino解析引擎的分析与改进[A];2010年全国通信安全学术会议论文集[C];2010年
中国博士学位论文全文数据库 前1条
1 李卫国;水稻生长模拟与决策支持系统的研究[D];南京农业大学;2005年
中国硕士学位论文全文数据库 前10条
1 李东东;不同区域湿地信息提取的遥感技术应用研究[D];太原理工大学;2011年
2 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
3 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
4 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
5 钟啟莹;分布式网络信息采集系统的设计与实现[D];华南理工大学;2011年
6 郑炯;WEB应用安全漏洞挖掘的研究与实现[D];电子科技大学;2011年
7 张亮;基于Ajax_REST架构Web服务的研究与应用[D];东北石油大学;2011年
8 王岩;可爬取Ajax数据的搜索引擎爬虫研究与设计[D];长春理工大学;2011年
9 桂许军;基于JavaEE平台与Lucene的信息文档搜索引擎系统的设计与实现[D];西南交通大学;2011年
10 杨哲;基于Groovy的分布式网络爬虫系统的设计与实现[D];西南交通大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
2 王映,于满泉,李盛韬,王斌,余智华;JavaScript引擎在动态网页采集技术中的应用[J];计算机应用;2004年02期
3 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期
4 马成前;毛许光;;网页查重算法Shingling和Simhash研究[J];计算机与数字工程;2009年01期
5 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
6 郭浩;陆余良;刘金红;;一种基于状态转换图的Ajax爬行算法[J];计算机应用研究;2009年11期
7 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期
8 李若鹏;李翔;林祥;李建华;;基于DK算法的互联网热点主动发现研究与实现[J];计算机技术与发展;2008年09期
9 曾伟辉;李淼;曾伟辉;;深层网络爬虫研究综述[J];计算机系统应用;2008年05期
10 李晓明,刘建国;搜索引擎技术及趋势[J];中国计算机用户;2000年09期
中国博士学位论文全文数据库 前2条
1 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
2 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
3 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
4 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
5 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
6 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
7 张晓峰;并行网页抓取系统设计[D];北京交通大学;2007年
8 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年
9 李春生;基于WEB信息采集的分布式网络爬虫搜索引擎的研究[D];吉林大学;2009年
10 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
2 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期
3 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
4 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
6 王丽坤;王宏;陆玉昌;;文本挖掘及其关键技术与方法[J];计算机科学;2002年12期
7 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
8 陈珂;陈小英;徐科;;Hidden Web信息获取[J];计算机时代;2007年05期
9 王映,于满泉,李盛韬,王斌,余智华;JavaScript引擎在动态网页采集技术中的应用[J];计算机应用;2004年02期
10 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
【相似文献】
中国期刊全文数据库 前10条
1 曾伟辉;李淼;;基于JavaScript切片的AJAX框架网络爬虫技术研究[J];计算机系统应用;2009年07期
2 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
3 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
4 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
5 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
6 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
7 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
8 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
9 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
10 陈汶滨;夏学梅;;基于聚焦爬虫的手机天气预报系统[J];今日科苑;2009年02期
中国重要会议论文全文数据库 前10条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
3 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
4 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
6 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 王栋;李妍;曹文;;基于AJAX技术的矿区环保信息系统的研究[A];煤矿节能减排与生态建设论坛论文集[C];2009年
9 何松;侯思祖;苏贵波;李璇;;Ajax结合WebGIS在电力通信网资源管理中研究与应用[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
10 李楠;马世龙;;一种基于Ajax的动态树型结构的设计与实现[A];2007中国控制与决策学术年会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 Victor;[N];人民邮电;2004年
2 伍裕标;[N];中国电脑教育报;2003年
3 王猛祥 徐明华;[N];中国计算机报;2004年
4 商建刚;[N];中国计算机报;2001年
5 甘肃 吴建蓉;[N];电脑报;2001年
6 河北 王皓玉;[N];电脑报;2004年
7 陈翔;[N];中国计算机报;2004年
8 记者 郭丽君;[N];光明日报;2010年
9 记者 邵素宏;[N];人民邮电;2010年
10 马季;[N];人民日报海外版;2010年
中国博士学位论文全文数据库 前6条
1 詹骞;基于Ajax/REST的GIS WEB服务研究与实现[D];中国地质大学(北京);2008年
2 邓春燕;基于RIA的全景虚拟野外地质信息系统[D];吉林大学;2010年
3 王开宇;Web系统建模及其性能分析[D];燕山大学;2010年
4 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
5 陶亮;面向水利信息网格的混合式SOA应用技术研究[D];武汉大学;2009年
6 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年
2 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
3 曾伟辉;支持AJAX的网络爬虫系统设计与实现[D];中国科学技术大学;2009年
4 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年
5 刘双林;LUCENE实现的基于RSS的博客搜索引擎[D];哈尔滨工程大学;2009年
6 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
7 刘凡凡;支持AJAX的定址网络爬虫系统的研究与实现[D];北京邮电大学;2013年
8 李松;利用Nutch研究与实现支持Ajax动态网页的网络爬虫系统[D];内蒙古师范大学;2013年
9 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
10 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
本文关键词:LUCENE实现的基于RSS的博客搜索引擎,由笔耕文化传播整理发布。
,本文编号:142837
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/142837.html