基于本体的海量数据融合的研究与实现
本文关键词:基于本体的海量数据融合的研究与实现,由笔耕文化传播整理发布。
【摘要】:随着大数据时代的到来,网络中的数据量以前所未有的速度增长,网络中的数据源也在以前所未有的规模增长,web2.0时代的到来使得每个人都成为了信息的发布者和消费者。然而,数据源和数据量的极大丰富带来的一个负面问题就是搜索信息所花费的时间开销不断增大,虽然有高性能的搜索引擎的帮助,目前搜索引擎所能得到的仅仅是包含有关键词的网页,至于真正有用信息的获取还需要用户来逐个进行查找筛选。 本文对海量数据的融合及其并行化技术展开了一系列的研究,旨在通过对海量的数据和多种数据源的分析,获取以实体对象为基本单位的全面信息,通过对多个数据源中数据的分析来还原出实体对象的完整信息,向用户提供完整高效的信息查询服务。 本文首先在单机本体构建流程的基础上提出了并行化的本体构建算法,在构建好的本体的基础上提出了并行化的本体融合过程,该过程采用基于人工指导的半自动融合算法,由计算机来完成大量重复的融合计算。在得到的融合数据的基础上,介绍了针对融合数据所进行的复杂网络分析,以一个或一组特定的对象为分析目标,采用迭代渐进式的分析方法,发挥了融合数据所具有的多种信息的优势,并将分析结果以可视化的方式直观的展示出来。 最后,本文给出了基于本体的海量数据融合系统的原型系统的设计与实现。结合MapReduce框架对海量的数据预处理,并实现了MapReduce计算框架下的本体构建与本体融合算法和复杂网络分析算法,采用B/S的架构,借助于HTML5的强大功能和丰富的表现力,向用户以最直观的方式展示融合结果和分析结果。 本文将传统的本体构建方法与大数据分析相结合,提出了并行化的本体构建与融合算法,实现了对于海量数据的高效分析与融合,并在此基础上进行了融合数据的应用设计.
【关键词】:本体构建 本体融合 数据融合 并行计算
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP202
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-16
- 1.1 选题背景及意义9-11
- 1.2 相关工作11-13
- 1.2.1 本体构建11
- 1.2.2 并行计算11-12
- 1.2.3 实体消歧12-13
- 1.3 论文的研究内容13-15
- 1.4 论文组织结构15-16
- 第二章 相关技术综述16-24
- 2.1 本体介绍与应用16-17
- 2.2 数据融合17-18
- 2.3 NoSQL非关系型数据库18-20
- 2.4 Hadoop介绍20-23
- 2.4.1 MapReduce20-22
- 2.4.2 HDFS22-23
- 2.5 本章小结23-24
- 第三章 并行化本体的构建与融合技术24-37
- 3.1 数据的预处理25-26
- 3.1.1 模块描述25-26
- 3.1.2 具体流程26
- 3.2 单机环境下的本体构建算法26-28
- 3.2.1 算法思想26-27
- 3.2.2 流程描述27-28
- 3.3 并行环境下的本体构建算法28-30
- 3.3.1 算法思想28
- 3.3.2 流程描述28-29
- 3.3.3 本体的持久化29-30
- 3.4 并行环境下的本体融合算法30-36
- 3.4.1 算法思想30-33
- 3.4.2 流程描述33-35
- 3.4.3 同名实体消歧35-36
- 3.5 本章小结36-37
- 第四章 基于融合数据的对象关系分析37-47
- 4.1 对象关系网络的提取37-39
- 4.2 事件驱动的节点关系分析39-41
- 4.3 网络基本参数计算41-46
- 4.3.1 节点的度42-43
- 4.3.2 网络的集聚系数43-44
- 4.3.3 PageRank排序44-46
- 4.4 本章小结46-47
- 第五章 原型系统的架构与功能设计47-52
- 5.1 系统的整体设计47-48
- 5.2 系统的详细设计48-51
- 5.2.1 数据预处理48-49
- 5.2.2 并行化的本体构建49-50
- 5.2.3 并行化的本体融合50-51
- 5.2.4 对象关系分析51
- 5.3 本章小结51-52
- 第六章 原型系统的实现52-70
- 6.1 程序各个模块实现52-56
- 6.1.1 数据源链接与预处理模块52
- 6.1.2 本体构建模块52-53
- 6.1.3 本体融合模块53-54
- 6.1.4 关系分析模块54-55
- 6.1.5 数据查询模块55-56
- 6.2 系统开发与部署环境56
- 6.3 系统性能测试56-58
- 6.3.1 本体构建的性能比较56-57
- 6.3.2 本体融合的性能比较57-58
- 6.4 系统效果展示58-69
- 6.4.1 数据预处理界面58-59
- 6.4.2 本体构架界面59-61
- 6.4.3 本体融合界面61-63
- 6.4.4 关系网络分析界面63-69
- 6.5 本章小结69-70
- 第七章 结束语70-72
- 7.1 论文的工作内容70-71
- 7.2 下一步的工作展望71-72
- 参考文献72-75
- 致谢75-76
【参考文献】
中国期刊全文数据库 前10条
1 郭黎;崔铁军;王玉海;卢晨琰;;多源空间数据融合技术探讨[J];地理信息世界;2007年01期
2 王庆先;孙世新;尚明生;刘宴兵;;并行计算模型研究[J];计算机科学;2004年09期
3 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
4 李晓辉;王淑艳;;大数据及其挑战[J];科技风;2012年23期
5 王志超;于剑;柴变芳;;基于集聚系数的链接社区发现方法[J];南京大学学报(自然科学版);2013年04期
6 ;第32次中国互联网络发展状况统计报告[J];互联网天地;2013年10期
7 丁晟春;李岳盟;甘利人;;基于顶层本体的领域本体综合构建方法研究[J];情报理论与实践;2007年02期
8 杜文华;本体构建方法比较研究[J];情报杂志;2005年10期
9 李晓辉;王盼卿;王寅龙;;基于本体的装备领域信息集成研究[J];计算机技术与发展;2011年04期
10 王光磊;;MongoDB数据库的应用研究和方案优化[J];中国科技信息;2011年20期
中国博士学位论文全文数据库 前2条
1 朱天;社会网络中节点角色以及群体演化研究[D];北京邮电大学;2011年
2 张永新;面向Web数据集成的数据融合问题研究[D];山东大学;2012年
本文关键词:基于本体的海量数据融合的研究与实现,由笔耕文化传播整理发布。
,本文编号:393805
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/393805.html