当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎中基于状态的Ajax动态网页提取研究

发布时间:2018-01-16 03:32

  本文关键词:搜索引擎中基于状态的Ajax动态网页提取研究 出处:《计算机应用与软件》2013年07期  论文类型:期刊论文


  更多相关文章: Ajax技术 动态网页 提取 DOM树 状态


【摘要】:Ajax(Asynchronous JavaScript and XML)动态网页的提取是目前搜索引擎研究的热点和难点。在分析已有Ajax动态网页提取方法的局限后,针对使用最广泛的基于DOM(Document Object Model)树的提取方法存在空间浪费和信息丢失的问题,引入状态S的形式化定义,提出基于状态的页面元素、事件与函数绑定关系的提取算法AjaxCrawling,并说明算法提取得到的资源库在搜索引擎中的有效性。通过比较实验,得出AjaxCrawling具有保证提取到的信息的完整性和节约存储空间的优势。
[Abstract]:Ajax(Asynchronous JavaScript and. Dynamic web page extraction is a hot and difficult point in search engine research. After analyzing the limitations of existing Ajax dynamic web page extraction methods. In order to solve the problem of space waste and information loss in the most widely used extraction method based on DOM(Document Object Model tree, the formal definition of state S is introduced. This paper proposes a state-based page element, event and function binding extraction algorithm Ajax Crawling, and explains the effectiveness of the resource library extracted by the algorithm in the search engine. It is concluded that AjaxCrawling has the advantages of ensuring the integrity of extracted information and saving storage space.
【作者单位】: 四川托普信息技术职业学院计算机系;
【分类号】:TP393.092
【正文快照】: 0引言随着Web 2.0的发展,许多网站采用了动态脚本的方式与用户进行交互,在这些动态交互的应用中,Ajax是目前广泛采用的实现技术。Ajax的使用使得搜索引擎中传统的爬虫机制失效了,传统的网络爬虫不能提取到Ajax动态脚本所生成的内容,从而严重影响到搜索引擎的查询结果。如图1

【参考文献】

相关期刊论文 前5条

1 梅林;;增加动态网页对搜索引擎可见度的策略[J];甘肃科技;2008年01期

2 王远定;梁久祯;;利用关键词倒排表实时检索中文网页[J];计算机工程与应用;2010年28期

3 郭浩;陆余良;刘金红;;一种基于状态转换图的Ajax爬行算法[J];计算机应用研究;2009年11期

4 邵辉;李芳;;基于树模型算法的动态网页信息抽取研究和实现[J];计算机应用与软件;2007年10期

5 赵思佳;尹婷;;基于规则引擎的个性化主题网页爬虫的研究[J];计算机技术与发展;2011年03期

相关会议论文 前1条

1 夏冰;高军;王腾蛟;杨冬青;;一种高效的动态脚本网站有效页面获取方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

【共引文献】

相关期刊论文 前4条

1 杨俊峰;黎建辉;杨风雷;;深层网站Ajax页面数据采集研究综述[J];计算机应用研究;2013年06期

2 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期

3 夏天;;Ajax站点数据采集研究综述[J];现代图书情报技术;2010年03期

4 陈锦伟;徐勇;;基于Heritrix的网页内容过滤抓取[J];现代计算机(专业版);2012年21期

相关硕士学位论文 前10条

1 高晖;面向Web2.0社区的爬虫关键技术研究[D];浙江大学;2011年

2 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年

3 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年

4 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年

5 刘烨辉;基于知识的应用生命周期管理研究[D];中南大学;2011年

6 祝美莲;半结构化网页的信息抽取技术研究[D];中国石油大学;2011年

7 王星;新闻网页抽取技术的研究与实现[D];河北工业大学;2011年

8 陈飞;实时垂直搜索引擎的爬虫技术研究[D];大连理工大学;2011年

9 曹晓龙;个性化搜索引擎及其关键技术研究[D];江南大学;2012年

10 许龙龙;基于Ajax技术的J2EE应用框架的研究与实现[D];西北大学;2010年

【二级参考文献】

相关期刊论文 前10条

1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期

2 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期

3 宋佳;诸云强;刘润达;;一种基于Lucene改进的全文检索工具包[J];计算机工程与应用;2008年04期

4 邓攀;刘功申;;一种高效的倒排索引存储结构[J];计算机工程与应用;2008年31期

5 谭新良;蔡代纯;;基于XML文档检索的搜索引擎设计[J];计算机科学;2007年03期

6 王李军;陶明亮;张曙;莫琪叶;;面向业务规则引擎研究[J];计算机工程;2007年24期

7 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期

8 邓长寿,赵秉岩;下一代Web搜索引擎探讨[J];情报科学;2005年03期

9 刘汉兴;刘财兴;;主题爬虫的搜索策略研究[J];计算机工程与设计;2008年12期

10 陆宜梅;;Web搜索技术现状分析[J];沈阳大学学报;2006年02期

相关博士学位论文 前1条

1 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年

相关硕士学位论文 前1条

1 米嘉;大规模中文文本检索中的高性能索引研究[D];中国科学院研究生院(计算技术研究所);2005年

【相似文献】

相关期刊论文 前10条

1 黄建招;李锋;;浅析网页制作中从ASP到ASP.NET的迁移[J];计算机与网络;2008年11期

2 陈瑞红;张霁明;;动态网站设计探讨[J];湖北生态工程职业技术学院学报;2009年03期

3 欧毓毅,郑志雄;企业MIS中的动态网页生成技术[J];微计算机信息;2000年05期

4 雨来;;在单机上建网站[J];电脑采购周刊;2000年34期

5 王楠;;让你的主页出点彩——主页制作特效[J];电脑界(应用文萃);2000年08期

6 吕律,刘光昌;基于模板类的动态网页的实现[J];计算机应用与软件;2004年12期

7 黄伟;远程教育中动态网页的脚本语言设计[J];大众科技;2005年04期

8 黄礼超;;校园网网页设计[J];科学咨询(决策管理);2006年06期

9 辛卫红;;《网页制作》课程教学新探[J];今日科苑;2008年14期

10 杨傲;;实用动态网页技术分析[J];经营管理者;2009年12期

相关会议论文 前10条

1 于平福;刘凯龙;;基于ASP的农业网站动态网页的设计研究[A];山西省科学技术情报学会学术年会论文集[C];2004年

2 黄明迪;;利用ASP自行构建动态校园网[A];教育技术应用与整合研究论文[C];2005年

3 黄明迪;;利用ASP自行构建动态校园网[A];中国教育技术协会2004年年会论文集[C];2004年

4 葛斌;;动态与静态相互结合的网页设计方法[A];计算机模拟与信息技术会议论文集[C];2001年

5 钟淑瑛;李陶深;张敏;;一种基于PCA技术的入侵检测特征提取方法[A];广西计算机学会2005年学术年会论文集[C];2005年

6 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 磨科鹏;;网络技术员应知的Web服务安全原理[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

9 辛毅;方滨兴;贺龙涛;云晓春;李志东;;基于通信特征分析的蠕虫检测和特征提取方法的研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

10 王敏;;基于JSP技术的某市环保网站的设计与实现[A];2007中国环境科学学会学术年会优秀论文集(下卷)[C];2007年

相关重要报纸文章 前10条

1 邹肇辉 何艳阳;动态网页打造利器——JSP[N];电脑报;2005年

2 丁一;“活的老鼠”不好抓[N];计算机世界;2001年

3 北京 董智勇;动态网页新技术[N];中国电脑教育报;2001年

4 北京邮电大学 张剑;通过DOM操作数据(上)[N];计算机世界;2001年

5 方正技术研究院 XML中国论坛网(www.xml.net.cn) 李超;应用程序接口DOM & SAX[N];网络世界;2001年

6 陶秋丰;万事俱备,,只欠东风[N];电脑报;2007年

7 李明(Lawrence Lee);动态网络催生CDN 2.0[N];计算机世界;2007年

8 慰鹏飞;走进编程之网络篇(四)[N];江苏经济报;2001年

9 2SKY;给网站添加调查功能[N];电脑报;2004年

10 飘零雪;动静态网页轻松转换[N];电脑报;2003年

相关博士学位论文 前2条

1 涂浩;蠕虫自动防御的关键问题研究[D];华中科技大学;2008年

2 唐勇;基于网络的攻击特征自动提取技术研究[D];国防科学技术大学;2008年

相关硕士学位论文 前10条

1 张彪;视频搜索引擎中的文本抽取系统的设计与实现[D];首都师范大学;2009年

2 于勇进;基于ASP技术的毕业生就业信息网站的构建与实现[D];吉林大学;2004年

3 潘敏;动态网页防篡改方法与技术研究[D];南昌航空大学;2012年

4 段国云;基于环结构的动态网页防篡改系统的设计与实现[D];湖南大学;2012年

5 翟修树;基于学科专题学习网站的设计与构建[D];山东师范大学;2006年

6 李魁;大规模Web论坛采集技术研究[D];中国科学院研究生院(计算技术研究所);2006年

7 崔玫;《电子线路》网络课程的设计与开发研究[D];东南大学;2005年

8 张净;Web信息自动抽取技术的研究与实现[D];武汉理工大学;2009年

9 柴晟;基于XML的Web组件[D];四川大学;2004年

10 成光;基于XML/XSLT的动态网页自动生成系统研究与实现[D];苏州大学;2006年



本文编号:1431390

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1431390.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1eba5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com