异构就业数据集成服务的设计与实现
发布时间:2017-09-02 03:19
本文关键词:异构就业数据集成服务的设计与实现
更多相关文章: 异构数据集成 OGSA-DAI Web 信息提取 VIPS算法
【摘要】:随着互联网的发展,互联网已经成为了世界上最大、最丰富的数据源,其中蕴含着大量的就业信息资源。这些资源不仅包含传统数据库这类的结构化资源,还包括Web上广泛应用的半结构化资源。但是由于这些数据源广泛的异构性和分布性,人们想要获取一条需要的就业信息就变得十分困难。为了充分利用这些资源,方便人们的查询,就需要将这些结构化和半结构化的数据在统一的平台上进行集成和访问。异构数据集成就是在这种情况下产生的。 本文从实现就业数据集成服务的角度,分别研究了具有代表性的结构化和半结构化数据集成系统,总结了各个系统的特点。针对结构化数据集成问题,本文利用现有的网格技术和中间件集成思想,使用网格中间件OGSA-DAI实现了结构化数据集成子系统,解决了异构数据库信息的动态更新问题。针对半结构化数据集成问题,本文在基于视觉的网页分块算法基础上,根据就业网站的特点,设计了半结构化数据集成子系统,改进了传统网页提取系统对页面解析能力不足、适应性差的缺点。 本文的就业数据集成分成两大部分:结构化就业数据集成和半结构化就业数据集成。其中结构化就业数据集成子系统采用XML作为统一元数据标准,将就业信息数据与元数据进行映射,实现异构数据的统一存储与查询;采用OGSA-DAI中问件实现数据源注册、数据查询、元数据管理和数据更新等功能,有效屏蔽数据库之间的差异,实现结构化数据集成。半结构化就业数据集成子系统首先对网页预处理,生成视觉树;其次使用VIPS算法对页面分块,定位就业信息在网页中位置,并通过人工配置,建立就业信息提取模板;最后利用XPath实现网页就业信息的提取。 本文设计了一个就业领域的数据集成服务系统,实现了结构化数据和半结构化数据的数据集成。构建了一个就业数据集成系统原型,实验结果表明系统的设计方案是可行的。
【关键词】:异构数据集成 OGSA-DAI Web 信息提取 VIPS算法
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.09
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-14
- 1.1 研究背景与意义9
- 1.2 研究现状9-12
- 1.2.1 结构化数据集成研究现状9-11
- 1.2.2 半结构化数据抽取研究现状11-12
- 1.3 本文研究内容12-13
- 1.4 本文组织结构13-14
- 第二章 异构数据集成关键技术14-30
- 2.1 OGSA14-15
- 2.2 OGSA的关键技术15-17
- 2.2.1 XML技术15-16
- 2.2.2 Web Service16-17
- 2.3 OGSA-DAI17-21
- 2.3.1 OGSA-DAI概述17-18
- 2.3.2 OGSA-DAI体系结构18-19
- 2.3.3 OGSA-DAI的主要部件19-20
- 2.3.4 OGSA-DAI中间件服务20
- 2.3.5 OGSA-DAI的执行流程20-21
- 2.4 Web信息提取21-23
- 2.4.1 Web信息提取概述21
- 2.4.2 信息提取体系结构21-22
- 2.4.3 Web信息提取的评价标准22-23
- 2.5 Web信息提取相关技术23-24
- 2.5.1 HTML23
- 2.5.2 DOM23-24
- 2.6 VIPS24-29
- 2.6.1 VIPS概述24-25
- 2.6.2 VIPS算法描述25-26
- 2.6.3 VIPS算法流程26-29
- 2.7 本章小结29-30
- 第三章 就业数据集成系统设计30-54
- 3.1 背景需求30-31
- 3.2 困难和挑战31
- 3.3 就业数据集成系统设计方案31-32
- 3.4 用户查询模块32
- 3.5 结构化就业数据集成子系统32-40
- 3.5.1 元数据管理模块34-36
- 3.5.2 数据提取模块36-38
- 3.5.3 数据集成总体流程38-40
- 3.6 半结构化就业数据集成子系统40-52
- 3.6.1 页面预处理模块40-47
- 3.6.2 页面信息规则生成模块47-51
- 3.6.3 页面信息提取模块51-52
- 3.7 本章小结52-54
- 第四章 系统实现与分析54-62
- 4.1 开发环境和开发工具54
- 4.1.1 系统开发环境54
- 4.1.2 系统开发工具54
- 4.2 系统的实现与分析54-61
- 4.2.1 结构化数据集成子系统54-57
- 4.2.2 半结构化数据集成子系统57-61
- 4.3 本章小结61-62
- 第五章 总结与展望62-64
- 5.1 总结62-63
- 5.2 展望63-64
- 参考文献64-67
- 致谢67-68
- 攻读硕士学位期间的学术成果68
- 学位论文68
【参考文献】
中国期刊全文数据库 前6条
1 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
2 王茹,宋瀚涛,陆玉昌;网页数据自动抽取系统[J];计算机工程与应用;2004年19期
3 李文奇,张忠能;页面包装器自动生成的改进算法[J];计算机工程与应用;2004年22期
4 肖创柏;冯维文;刘时光;;基于语义表示的数据仓库构建方法[J];计算机工程;2007年10期
5 陈钊;张冬梅;;Web信息抽取技术综述[J];计算机应用研究;2010年12期
6 曹冬林;廖祥文;许洪波;白硕;;基于网页格式信息量的博客文章和评论抽取模型[J];软件学报;2009年05期
,本文编号:776075
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/776075.html