当前位置:主页 > 科技论文 > 搜索引擎论文 >

Ajax友好的网络爬虫设计与实现

发布时间:2016-10-17 13:08

  本文关键词:LUCENE实现的基于RSS的博客搜索引擎,由笔耕文化传播整理发布。


《暨南大学》 2011年

Ajax友好的网络爬虫设计与实现

张媚  

【摘要】:随着以用户为核心的新一代Web应用模式——Web2.0如火如荼,Ajax技术获得了广泛应用,比如网易博客、卓越亚马逊、Google等。Ajax采用JavaScript驱动的异步请求/响应机制,而传统爬虫缺乏对Javascript语义上的理解,无法模拟触发Javascript的异步调用并解析返回的异步数据。此外在Ajax的应用中,Javascript会对DOM结构进行大量地变动,通过DOM操作动态更新页面内容,而传统网络爬虫默认页面的DOM结构是相对静态不变的。Ajax技术的应用给传统网络爬虫造成很大障碍,必然影响搜索引擎的信息采集。 针对上述问题,本文通过HTTP请求,获取网页源代码信息。构建DOM树并对页面进行分析处理,去掉噪声信息。通过遍历DOM树提取其中JavaScript脚本代码和文件。构建浏览器内置对象,然后利用开源的脚本解析引擎Rhino跟踪执行这些JavaScript代码,从而实现Ajax页面内动态加载的超链接地址的获取。并进一步对解析后的页面采用XPath表达式快速定位需要抓取的内容,生成抽取规则,以XML格式存储抽取规则和数据,并使用XSLT进行转换最终以HTML页面的形式呈现。最终解决Ajax网站中URL获取以及动态内容的获取。 本文实现了Ajax友好的网络爬虫系统,提出浏览器内置对象的本地构建,利用Rhino解析JavaScript脚本中的Ajax调用,获得其异步请求返回的数据,为Ajax友好的网络爬虫提供了新的解决方案。最后通过实验,证明本文研究的可行性。

【关键词】:
【学位授予单位】:暨南大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【目录】:

  • 摘要4-5
  • Abstract5-6
  • 目录6-7
  • 第一章 绪论7-11
  • 1.1 研究背景7-8
  • 1.2 研究现状与发展趋势8-9
  • 1.3 研究目的和意义9
  • 1.4 论文内容和结构9-11
  • 第二章 相关概念介绍11-24
  • 2.1 动态网页11-12
  • 2.2 Web2.012-13
  • 2.3 Ajax概述13-23
  • 2.4 本章小结23-24
  • 第三章 Ajax网络爬虫设计方案24-32
  • 3.1 传统网络爬虫24-27
  • 3.2 支持Ajax的爬虫27-31
  • 3.3 本章小结31-32
  • 第四章 Ajax网络爬虫实现32-47
  • 4.1 网页采集模块32-37
  • 4.2 网页预处理模块37-40
  • 4.3 网页识别模块40-42
  • 4.4 本地浏览器内置对象构建模块42-45
  • 4.5 调用Rhino解析脚本模块45-46
  • 4.6 页面生成模块46
  • 4.7 本章小结46-47
  • 第五章 抽取动态信息47-57
  • 5.1 相关技术47-51
  • 5.2 动态信息抽取流程51-56
  • 5.3 本章小结56-57
  • 第六章 系统运行实验57-63
  • 6.1 实验57
  • 6.2 测试57-63
  • 第七章 总结与展望63-65
  • 7.1 结论63
  • 7.2 展望63-65
  • 参考文献65-68
  • 硕士期间发表论文68-69
  • 致谢69
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【引证文献】

    中国期刊全文数据库 前1条

    1 王益强;赵静;;网页文本数据自动采集方法综述[J];信息与电脑(理论版);2012年09期

    中国硕士学位论文全文数据库 前2条

    1 高龙;搜索引擎中通用爬虫系统的研究与设计[D];吉林大学;2013年

    2 钟少君;面向Ajax的搜索引擎技术研究[D];浙江大学;2012年

    【参考文献】

    中国期刊全文数据库 前1条

    1 王映,于满泉,李盛韬,王斌,余智华;JavaScript引擎在动态网页采集技术中的应用[J];计算机应用;2004年02期

    中国硕士学位论文全文数据库 前2条

    1 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年

    2 曾伟辉;支持AJAX的网络爬虫系统设计与实现[D];中国科学技术大学;2009年

    【共引文献】

    中国期刊全文数据库 前10条

    1 王晶;陈卫卫;;AJAX搜索引擎研究[J];电脑知识与技术;2009年19期

    2 周思思;袁晓红;;社交网络信息采集技术研究与实现[J];电子世界;2012年04期

    3 陈源恩;陈志伟;曾文华;;脚本语言在核磁共振谱仪软件系统中的应用[J];福建电脑;2010年01期

    4 陈健瑜;;网页动态页面采集关键技术研究[J];硅谷;2009年12期

    5 李华波;吴礼发;赖海光;郑成辉;黄康宇;;有效的爬行Ajax页面的网络爬行算法[J];电子科技大学学报;2013年01期

    6 林振洲;;VFP技术在网页数据采集中的应用——以高校数字资源建设为例[J];计算机光盘软件与应用;2013年14期

    7 王娟;唐宝珍;;基于兴趣的轻博客网站拓扑特性分析[J];电脑知识与技术;2013年22期

    8 陆亮;李东;;支持AJAX的网络爬虫设计与实现[J];智能计算机与应用;2013年06期

    9 李政;孟德光;董艳英;鲁艳丽;姚素玲;;网络课程通用术语查询系统设计[J];河北科技师范学院学报;2006年03期

    10 段青玲;杨仁刚;朱杨;;一种表单Ajax信息项提取方法[J];计算机工程;2011年03期

    中国重要会议论文全文数据库 前1条

    1 李蕊;魏更宇;王枞;张冬梅;;Rhino解析引擎的分析与改进[A];2010年全国通信安全学术会议论文集[C];2010年

    中国博士学位论文全文数据库 前1条

    1 李卫国;水稻生长模拟与决策支持系统的研究[D];南京农业大学;2005年

    中国硕士学位论文全文数据库 前10条

    1 李东东;不同区域湿地信息提取的遥感技术应用研究[D];太原理工大学;2011年

    2 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年

    3 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年

    4 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年

    5 钟啟莹;分布式网络信息采集系统的设计与实现[D];华南理工大学;2011年

    6 郑炯;WEB应用安全漏洞挖掘的研究与实现[D];电子科技大学;2011年

    7 张亮;基于Ajax_REST架构Web服务的研究与应用[D];东北石油大学;2011年

    8 王岩;可爬取Ajax数据的搜索引擎爬虫研究与设计[D];长春理工大学;2011年

    9 桂许军;基于JavaEE平台与Lucene的信息文档搜索引擎系统的设计与实现[D];西南交通大学;2011年

    10 杨哲;基于Groovy的分布式网络爬虫系统的设计与实现[D];西南交通大学;2010年

    【同被引文献】

    中国期刊全文数据库 前10条

    1 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期

    2 王映,于满泉,李盛韬,王斌,余智华;JavaScript引擎在动态网页采集技术中的应用[J];计算机应用;2004年02期

    3 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期

    4 马成前;毛许光;;网页查重算法Shingling和Simhash研究[J];计算机与数字工程;2009年01期

    5 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

    6 郭浩;陆余良;刘金红;;一种基于状态转换图的Ajax爬行算法[J];计算机应用研究;2009年11期

    7 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期

    8 李若鹏;李翔;林祥;李建华;;基于DK算法的互联网热点主动发现研究与实现[J];计算机技术与发展;2008年09期

    9 曾伟辉;李淼;曾伟辉;;深层网络爬虫研究综述[J];计算机系统应用;2008年05期

    10 李晓明,刘建国;搜索引擎技术及趋势[J];中国计算机用户;2000年09期

    中国博士学位论文全文数据库 前2条

    1 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年

    2 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

    中国硕士学位论文全文数据库 前10条

    1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年

    2 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年

    3 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年

    4 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年

    5 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年

    6 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年

    7 张晓峰;并行网页抓取系统设计[D];北京交通大学;2007年

    8 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年

    9 李春生;基于WEB信息采集的分布式网络爬虫搜索引擎的研究[D];吉林大学;2009年

    10 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年

    【二级参考文献】

    中国期刊全文数据库 前10条

    1 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期

    2 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期

    3 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期

    4 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期

    5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期

    6 王丽坤;王宏;陆玉昌;;文本挖掘及其关键技术与方法[J];计算机科学;2002年12期

    7 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期

    8 陈珂;陈小英;徐科;;Hidden Web信息获取[J];计算机时代;2007年05期

    9 王映,于满泉,李盛韬,王斌,余智华;JavaScript引擎在动态网页采集技术中的应用[J];计算机应用;2004年02期

    10 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

    【相似文献】

    中国期刊全文数据库 前10条

    1 曾伟辉;李淼;;基于JavaScript切片的AJAX框架网络爬虫技术研究[J];计算机系统应用;2009年07期

    2 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期

    3 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期

    4 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期

    5 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期

    6 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期

    7 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期

    8 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期

    9 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期

    10 陈汶滨;夏学梅;;基于聚焦爬虫的手机天气预报系统[J];今日科苑;2009年02期

    中国重要会议论文全文数据库 前10条

    1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

    2 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年

    3 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

    4 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

    5 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

    6 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

    7 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

    8 王栋;李妍;曹文;;基于AJAX技术的矿区环保信息系统的研究[A];煤矿节能减排与生态建设论坛论文集[C];2009年

    9 何松;侯思祖;苏贵波;李璇;;Ajax结合WebGIS在电力通信网资源管理中研究与应用[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

    10 李楠;马世龙;;一种基于Ajax的动态树型结构的设计与实现[A];2007中国控制与决策学术年会论文集[C];2007年

    中国重要报纸全文数据库 前10条

    1 Victor;[N];人民邮电;2004年

    2 伍裕标;[N];中国电脑教育报;2003年

    3 王猛祥 徐明华;[N];中国计算机报;2004年

    4 商建刚;[N];中国计算机报;2001年

    5 甘肃 吴建蓉;[N];电脑报;2001年

    6 河北 王皓玉;[N];电脑报;2004年

    7 陈翔;[N];中国计算机报;2004年

    8 记者 郭丽君;[N];光明日报;2010年

    9 记者 邵素宏;[N];人民邮电;2010年

    10 马季;[N];人民日报海外版;2010年

    中国博士学位论文全文数据库 前6条

    1 詹骞;基于Ajax/REST的GIS WEB服务研究与实现[D];中国地质大学(北京);2008年

    2 邓春燕;基于RIA的全景虚拟野外地质信息系统[D];吉林大学;2010年

    3 王开宇;Web系统建模及其性能分析[D];燕山大学;2010年

    4 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

    5 陶亮;面向水利信息网格的混合式SOA应用技术研究[D];武汉大学;2009年

    6 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

    中国硕士学位论文全文数据库 前10条

    1 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年

    2 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年

    3 曾伟辉;支持AJAX的网络爬虫系统设计与实现[D];中国科学技术大学;2009年

    4 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年

    5 刘双林;LUCENE实现的基于RSS的博客搜索引擎[D];哈尔滨工程大学;2009年

    6 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年

    7 刘凡凡;支持AJAX的定址网络爬虫系统的研究与实现[D];北京邮电大学;2013年

    8 李松;利用Nutch研究与实现支持Ajax动态网页的网络爬虫系统[D];内蒙古师范大学;2013年

    9 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年

    10 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年


      本文关键词:LUCENE实现的基于RSS的博客搜索引擎,由笔耕文化传播整理发布。



    本文编号:142837

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/142837.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户c48aa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com