当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种使用文档对象模型的AJAX爬行方案

发布时间:2018-08-23 11:23
【摘要】:许多WEB应用程序采用AJAX技术来增强用户体验。但是AJAX的一些特性使它在传统搜索引擎实施抓取操作时非常困难。如谷歌的AJAX爬行方案需要网站改变架构并添加额外的代码,因此只被谷歌支持。针对这种情况,提出了一种基于文档对象模型和广度优先爬行算法的AJAX爬行方案,它可以通过跟踪由AJAX事件引发的DOM树的变化,来建立AJAX WEB应用程序的状态转换图,进而生成原始AJAX WEB应用程序的静态镜像站点。实验证明,该AJAX爬行方案确实可以爬行AJAX应用程序。
[Abstract]:Many WEB applications use AJAX technology to enhance the user experience. But some of the features of AJAX make it very difficult for traditional search engines to implement crawling operations. Google's AJAX crawl, for example, requires the site to change its architecture and add additional code, so it is supported only by Google. In order to solve this problem, a AJAX crawling scheme based on document object model and breadth-first crawling algorithm is proposed. It can build the state transition diagram of AJAX WEB application by tracking the changes of DOM tree caused by AJAX events. In turn, the static mirror site of the original AJAX WEB application is generated. Experimental results show that the AJAX crawling scheme can indeed crawl AJAX applications.
【作者单位】: 徐州工业职业技术学院;徐州市工业信息网络工程技术研究中心;
【基金】:2013年徐州市科技发展基金计划(XF13C035) 2012年徐州工业职业技术学院科研课题(XGY201213)
【分类号】:TP312.2

【参考文献】

相关期刊论文 前1条

1 郭浩;陆余良;刘金红;;一种基于状态转换图的Ajax爬行算法[J];计算机应用研究;2009年11期

【共引文献】

相关期刊论文 前4条

1 陆亮;李东;;支持AJAX的网络爬虫设计与实现[J];智能计算机与应用;2013年06期

2 杨俊峰;黎建辉;杨风雷;;深层网站Ajax页面数据采集研究综述[J];计算机应用研究;2013年06期

3 陈莉莉;张丽;刘正龙;;搜索引擎中基于状态的Ajax动态网页提取研究[J];计算机应用与软件;2013年07期

4 夏天;;Ajax站点数据采集研究综述[J];现代图书情报技术;2010年03期

相关硕士学位论文 前7条

1 高晖;面向Web2.0社区的爬虫关键技术研究[D];浙江大学;2011年

2 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年

3 刘烨辉;基于知识的应用生命周期管理研究[D];中南大学;2011年

4 陈飞;实时垂直搜索引擎的爬虫技术研究[D];大连理工大学;2011年

5 许龙龙;基于Ajax技术的J2EE应用框架的研究与实现[D];西北大学;2010年

6 刘凡凡;支持AJAX的定址网络爬虫系统的研究与实现[D];北京邮电大学;2013年

7 钟少君;面向Ajax的搜索引擎技术研究[D];浙江大学;2012年

【相似文献】

相关期刊论文 前10条

1 白勇;;基于文档对象模型和远程脚本技术的动态目录树设计[J];重庆电力高等专科学校学报;2003年01期

2 周宇;吴涛;;用C++语言实现XML文件解析的一种方案[J];光通信研究;2008年04期

3 侯锟;刘斌;;Web页面信息抽取技术的研究[J];荆楚理工学院学报;2009年11期

4 逯鹏;XML文档解析技术及其应用[J];郑州大学学报(工学版);2002年04期

5 李世斌,谢庆生;应用集成中BOM及其管理的研究[J];计算机与现代化;2003年07期

6 侯锟;罗海龙;;Web页面表格信息的自主抽取[J];科技广场;2006年04期

7 和万礼;陈应东;崔铁军;姚慧敏;;基于SVG的网络地图交互研究[J];海洋测绘;2006年05期

8 李伟;;基于XML+DOM4J的数据库集成技术研究[J];电脑知识与技术(学术交流);2007年05期

9 郭景录;朱向东;;XML技术在控制系统图形组态数据存储和访问中的应用[J];微计算机信息;2010年28期

10 朱敏;贾长云;;FrontPage网页制作自动阅卷系统的研究与实现[J];计算机时代;2010年11期

相关会议论文 前3条

1 吕建华;王国仁;于戈;;XML数据的存储、索引和查询优化技术及其性能评价[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

2 商超;李建中;何震瀛;;信息集成系统中HTML2XML的研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

3 朱利君;张友华;李绍稳;辜丽川;程波波;;基于茶虫害本体的智能检索系统设计[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

相关重要报纸文章 前7条

1 ;W3C大力推进XML测试[N];计算机世界;2002年

2 本报记者 周源;IE 9释放网络之美[N];网络世界;2010年

3 王如;数据库与XML[N];网络世界;2002年

4 秦林;《XML完全探索》[N];中华读书报;2001年

5 钱小聪;移动电子商务系统架构[N];人民邮电;2002年

6 ;无线互联发展的动力是什么[N];人民邮电;2001年

7 方正技术研究院 XML中国论坛网(www.xml.net.cn) 李超;应用程序接口DOM & SAX[N];网络世界;2001年

相关博士学位论文 前1条

1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

相关硕士学位论文 前10条

1 温琪;基于XML的MIS开发系统前端应用的研究[D];昆明理工大学;2002年

2 张炜;基于ODM的本体建模方法研究[D];吉林大学;2006年

3 苗颖;Web页面信息自主抽去技术的研究[D];吉林大学;2006年

4 陈卓;DOM2分析及其在嵌入式系统上的实现[D];电子科技大学;2007年

5 刘磊;基于PC的数字电视软件的设计与实现[D];华中科技大学;2007年

6 刘玲;一种通用Web信息抽取系统的研究与实现[D];西南石油大学;2007年

7 杨春涛;基于SMIL与流媒体技术的多媒体网络教学系统的设计与实现[D];哈尔滨工程大学;2008年

8 刘靖侨;XML文档对象模型持久化在OSCAR中的实现及查询转换[D];浙江大学;2002年

9 唐明;面向移动计算环境的可扩展标记语言转换技术研究[D];国防科学技术大学;2004年

10 曲贵川;基于.NET电子商务系统的代码生成器[D];沈阳理工大学;2009年



本文编号:2198934

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2198934.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b9959***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com