当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于重复模式的Web数据抽取与集成应用

发布时间:2020-01-17 18:13
【摘要】:信息时代,Internet已经成为人们获取信息的重要途径,而基于关键字检索的Internet搜索引擎又是人们从互联网上查找信息的主要方法。从互联网获取信息的主要局限性在于,在互联网海量的Web页面中很难定位特定的知识;而搜索引擎又很容易将所需知识淹没在大量的低相关度,甚至无关网页中。另一方面随着信息技术的进步和人们的实际需要,涌现出了一些全新的基于Web的应用,例如监控股票市场的实时行情、各个电子商务网站的商品价格比较等等。仅凭传统搜索引擎技术和Web查询技术无法真正满足这些新兴的需求。与信息检索技术不同的是,数据抽取技术更侧重于从Web文档集合中发现相关联的文档,并从中抽取出用户感兴趣的信息,即将HTML等半结构化的数据转换成为结构化的数据。 Web数据库的广泛使用使得大量高质量的信息无法被传统的搜索引擎索搜索到。这种基于数据库的应用被称之为Deep Web。Web数据库依据用户特定的查询要求或条件动态的生成Web页而,即查询相关Web页面中的数据记录之间具有极高的代码结构相似性,也就是说Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。 本文从分析Web文档与DOM树的对应关系入手,提出了一种基于重复模式的高效Web自动抽取算法——DES算法,同时利用集成工具ODI进行数据集成,获得可以直接被其它的应用程序利用结构化数据,进一步完成信息检索、数据挖掘、机器翻译、文本摘要等后续Web信息处理。HTML对应的DOM树是该方法的Web数据结构化和分析抽取的基础。该抽取算法首先通过比较同一模板的两个样本网页的内容相似度,对DOM树进行裁剪,准确定位待抽取数据区域;其次通过TOP-DOWN树匹配算法进行树的结构相似件比较,发掘数据区域中多条数据记录的重复模式,得出数据记录的粒度,进而生成抽取规则。从而实现对DOM树中的数据记录的发现及抽取。 最后论文应川基于相似性比较的方法对原型系统进行了实现。实验表明,该算法对于各类动态Web网页的信息抽取有着很好的效果。
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09

【相似文献】

相关期刊论文 前10条

1 赵丽娜;周吉顺;;基于WEB的高校网上选课系统的设计与实现[J];电脑知识与技术;2011年18期

2 米新英;;基于Web的通用商品报价系统的研究与实现[J];北华航天工业学院学报;2011年03期

3 朱启英;李明霞;穆玉明;张源明;;基于WEB的考试系统在医学远程教育中的应用[J];中国高等医学教育;2011年06期

4 段静波;潘惠苹;;基于WEB的学院教务管理系统设计与应用[J];电脑知识与技术;2011年17期

5 范毅君;马永威;;浅谈门户网站的设计与在油田中的应用[J];中国石油和化工标准与质量;2011年07期

6 潘生;;基于WEB的人力资源管理专业亲验式教学资源库系统设计[J];电脑知识与技术;2011年23期

7 杜婷;陶克斌;夏勤;;基于Web的无刷新即时通讯设计与实现[J];重庆科技学院学报(自然科学版);2011年04期

8 王玉华;;Unix平台下的数据库查询开发工具(Web-DTools)的设计与实现[J];信息与电脑(理论版);2011年06期

9 张爱军;;电子商务技术的创新发展趋势[J];电脑知识与技术;2011年26期

10 钟寿福;吴伟信;;中学研究性学习网络支撑平台的设计与实现[J];福建电脑;2011年07期

相关会议论文 前10条

1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年

3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年

8 王海燕;谷明哲;王静;孟小峰;;基于预定义模式的Web信息抽取[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

9 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

10 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年

相关重要报纸文章 前10条

1 赵晓涛;Web安全 服务为王[N];网络世界;2008年

2 本报特约撰稿 张娟;用Web 2.0提升知识管理效率[N];计算机世界;2008年

3 厉民;金融风暴冲击Web2.0产业[N];人民邮电;2008年

4 电脑商报记者 周雪;Web安全市场须冷却慎行[N];电脑商报;2008年

5 郭川;Web2.0:新花样层出不穷[N];人民邮电;2008年

6 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年

7 本报记者 李飞虎;Web 2.0[N];中国计算机报;2008年

8 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年

9 商报记者 吴辰光;Web2.0凸显空洞概念[N];北京商报;2009年

10 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年

相关博士学位论文 前10条

1 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年

2 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年

3 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年

4 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年

5 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年

6 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年

7 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年

8 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年

9 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年

10 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年

相关硕士学位论文 前10条

1 徐晴;Web数据抽取技术及应用[D];华东理工大学;2012年

2 吴俊霖;基于半自动化WEB数据抽取器的信息集成研究[D];西南大学;2010年

3 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年

4 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年

5 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年

6 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年

7 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年

8 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年

9 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年

10 陈洪平;面向Deep Web的数据抽取与语义标注技术研究[D];苏州大学;2010年



本文编号:2570704

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2570704.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户09390***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com