大规模异构数据即时整合系统的研究与实现
本文关键词:大规模异构数据即时整合系统的研究与实现
【摘要】:随着大数据分析技术的日渐成熟,大数据所蕴含的巨大价值已经引起了很多行业的重视。例如,企业可以通过分析某一领域的大量数据为其决策提供支持。大部分决策分析系统往往涉及到大量不同来源的数据,这些不同来源的数据集不仅数据量大、增长迅速,而且格式多样。因此,分析者希望能集成所有不同来源的数据集,通过统一的数据访问接口获取数据。本文以大数据在医疗行业的应用为背景,研究并实现了大规模异构数据即时整合系统。该系统主要针对多源异构大数据,经过清洗转换,屏蔽底层各数据源之间的差异,为上层应用提供统一标准的数据访问接口。传统的异构大数据整合方法,需要花费几个月甚至半年来定义标准化数据接口,之后再将数据批量转换为标准格式,并且一旦标准固定后,无法侦测到新的数据类型。本文不同于传统方法,支持增量式数据采集,无需事先定义标准化接口,而是根据应用需求,通过增量式数据映射管理平台,根据用户的需求不断更新对原始数据的整合规则,从而实现自适应完善数据标准。本文给出了大规模异构数据即时整合系统的整体设计以及主要功能模块。系统由数据实时采集子系统和增量式映射管理平台两部分组成:数据实时采集子系统利用前置机,实时获取各异构数据源中最新的数据变更;增量式映射管理平台是本文研究的核心部分,本文详细介绍了模式匹配模块中属性相似度计算策略,并结合实例展示了增量式属性匹配流程。之后,本文给出了增量式异构数据整合流程,并提出相应的效率优化策略。最后本文给出了大量实验,验证了模式匹配模块的有效性,测试了增量式异构数据整合流程的性能,表明本文提出的异构大数据即时整合系统,具有非常实用的价值。
【关键词】:大数据 数据清洗 异构数据 模式映射
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要5-6
- Abstract6-12
- 第1章 绪论12-18
- 1.1 课题背景12-15
- 1.2 本文工作与贡献15-17
- 1.3 本文组织17
- 1.4 本章小结17-18
- 第2章 相关工作18-26
- 2.1 传统数据整合方法18-22
- 2.1.1 模式对齐(Schema Alignment)18-20
- 2.1.2 记录链接(Record Linkage)20-22
- 2.1.3 数据融合(Data fusion)22
- 2.2 语义转换22-23
- 2.3 单词相似度计算23-25
- 2.3.1 潜在语义分析法(LSA,Latent Semantic Analysis)23-24
- 2.3.2 利用WordNet进行单词相似度计算24
- 2.3.3 基于分布的单词相似度计算24-25
- 2.4 本章小结25-26
- 第3章 数据模型和问题定义26-30
- 3.1 数据模型定义26-27
- 3.2 问题描述27-29
- 3.3 系统预期目标29
- 3.4 本章小结29-30
- 第4章 系统结构与整体设计30-46
- 4.1 社保大数据平台系统结构30-34
- 4.1.1 整体架构30-32
- 4.1.2 大数据混合异构分布式存储计算云平台32-34
- 4.2 大规模异构数据即时整合系统整体系统结构34-44
- 4.2.1 系统网络结构35-36
- 4.2.2 系统主要模块36-37
- 4.2.3 数据实时采集子系统37-40
- 4.2.4 增量式映射管理平台40-44
- 4.3 增量式异构数据整合44
- 4.4 本章小结44-46
- 第5章 模式匹配模块的研究与实现46-60
- 5.1 模式匹配模块处理流程46-47
- 5.2 属性匹配器47-52
- 5.2.1 基于单词相似度的属性匹配器47-49
- 5.2.2 基于单词编辑距离的属性匹配器49-51
- 5.2.3 基于数据类型的属性匹配器51-52
- 5.2.4 基于数据实例的属性匹配器52
- 5.2.5 自定义属性匹配器52
- 5.3 属性相似度计算52-55
- 5.3.1 幂平均(Generalized Mean)53
- 5.3.2 Average Harmony权值计算53-54
- 5.3.3 基于Average Harmony的幂平均聚合策略54-55
- 5.4 增量式属性匹配流程55-59
- 5.5 本章小结59-60
- 第6章 增量式异构数据整合流程60-66
- 6.1 增量式数据采集60
- 6.2 增量式查询处理流程60-65
- 6.2.1 查询输入60
- 6.2.2 模式匹配建立映射60-61
- 6.2.3 SQL转换61-62
- 6.2.4 查询结果整合62
- 6.2.5 效率优化62-65
- 6.3 本章小结65-66
- 第7章 实验结果及分析66-79
- 7.1 实验配置66-67
- 7.1.1 运行环境66
- 7.1.2 数据集描述66-67
- 7.1.3 衡量指标67
- 7.2 实验结果及结果分析67-78
- 7.2.1 模式匹配结果及分析69-73
- 7.2.2 增量式异构数据整合性能73-78
- 7.3 本章小结78-79
- 第8章 总结和展望79-81
- 8.1 本文主要工作和贡献79
- 8.2 未来研究工作展望79-81
- 参考文献81-84
- 致谢84
【相似文献】
中国期刊全文数据库 前10条
1 张琦,吴敏,黎干;基于XML Web Service的分布式异构数据透明转换机制[J];电脑与信息技术;2004年04期
2 刘扬,赵文吉,宫辉力;关于异构数据连接的研究[J];首都师范大学学报(自然科学版);2005年01期
3 邹晓玉;;一种异构数据的解决方案[J];台声.新视角;2006年01期
4 尹国标;楼勇亮;;异构数据如何“手拉手”[J];信息系统工程;2008年01期
5 刁兴春;严浩;丁鲲;;异构数据转换关键技术的实现[J];计算机工程;2008年17期
6 梁艳;胡先智;;异构数据转换系统设计与实现[J];信息与电脑(理论版);2011年08期
7 詹国华;何炎雯;李志华;;智能健康管理多源异构数据融合体系与方法[J];计算机应用与软件;2012年09期
8 唐钰;陈浩;叶柏龙;;基于逆向清理的实时异构数据整合模型研究[J];计算机工程;2012年23期
9 梁合功;;异构数据迁移系统设计与实现[J];科技致富向导;2013年23期
10 卢庆龄,李庆全,黄俊,张威;异构数据仓库中的知识管理体系研究[J];计算机应用;2003年S2期
中国重要会议论文全文数据库 前6条
1 姚燕;李湘;郭萍;郑波;;基于中间件的异构数据检索服务[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
2 伍尚杰;陈立定;曾明;;基于XML异构数据的组态软件[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
3 李刚;高春阳;崔明;;高校异构数据整合平台建设研究[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年
4 江涛;刘东波;刘巍;;基于XML的异构数据集成中间件研究[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
5 周翔;翁剑成;荣建;;基于MDA的异构交通数据管理平台的研究与开发[A];2007第三届中国智能交通年会论文集[C];2007年
6 陈亚洲;齐从谦;甘屹;;基于Web的CAM异构数据转换和传输的研究[A];制造业与未来中国——2002年中国机械工程学会年会论文集[C];2002年
中国重要报纸全文数据库 前2条
1 汪蔚;跨平台异构数据对接是选型根本[N];中国计算机报;2004年
2 西岸;Network Appliance发布新异构数据保护方案[N];通信产业报;2003年
中国博士学位论文全文数据库 前2条
1 于宝琴;成套电器企业异构数据整合及其物流系统的研究[D];天津大学;2006年
2 缪嘉嘉;异构数据映射技术研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 高姣姣;MUSER异构数据采集及融合技术研究[D];昆明理工大学;2015年
2 高湛;基于混支持度和粗糙集的异构数据融合研究[D];燕山大学;2015年
3 郑文明;基于XML的异构数据交换在汽车零部件产业价值链协同云服务平台的研究与应用[D];西南交通大学;2015年
4 陈毅飞;基于多源异构数据的杨凌水肥信息管理系统研究[D];西北农林科技大学;2015年
5 叶茂伟;大规模异构数据即时整合系统的研究与实现[D];浙江大学;2016年
6 孙靖怡;基于异构数据的复杂关联比对方法的研究与应用[D];沈阳理工大学;2008年
7 邢雅琼;多业务缴费系统异构数据的转换及其实现[D];兰州理工大学;2011年
8 黄豪球;多学科协同设计过程异构数据共享方法研究[D];沈阳理工大学;2012年
9 刘建珍;畜产品溯源系统中异构数据整合问题研究[D];哈尔滨工业大学;2009年
10 王立秋;银行信贷系统异构数据查询平台的分析与设计[D];北京邮电大学;2011年
,本文编号:837474
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/837474.html