健康数据库存储架构及高效数据访问关键技术研究

发布时间：2021-03-06 21:23

　　健康数据库是居民医疗健康相关的动态档案信息,对完善居民医疗就诊、健康保健服务及对社会的医疗卫生事业发展具有重要的意义。医疗健康数据由于其本身的模式自由与半结构特性,同时,管理居民健康档案将面临海量数据的处理,如何对这些信息进行存储设计及满足不同用户的高效数据访问需求,这些因素都对全民健康档案数据库的发展带来了巨大的挑战,因此,对健康数据库存储架构及高效数据访问的研究具有重要意义。本文主要内容是设计实现以MongoDB数据库作为数据源,进行日常业务处理,以Hive作为目标数据存储,并结合Spark SQL进行上层统计分析的健康数据库存储架构,及为了获得更加高效的数据访问及统计分析性能而进行的基于负载驱动的性能优化。为了构建健康数据库的整体存储架构,完成ETL过程的实现与优化,设计实现了增量数据捕获方法,并利用混合高斯模型（GMM）进行异常数据的检测,借助PDI（Pehtaho Data Integration）工具实现了ETL自动化的过程。同时,设计实现了一种数据解析方法,优化PDI默认解析效率;改变了原来的轮询分区,增加了一种自定义的数据分区方式。另一方面,对Hive与Spark SQ...

【文章来源】：国防科技大学湖南省 211工程院校 985工程院校

【文章页数】：80 页

【学位级别】：硕士

【部分图文】：

Hive架构图

结构图,结构图,执行计划

图 1.3 Spark SQL 结构图[16]首先，根据输入的数据源及类 SQL 语句会被 SQL 解析器解析成一个抽象语法树，或者是利用编程接口生成的 DataFrame 对象。这时候产生的是一些非解析的属性关系，叫做非解析的逻辑计划，即其类型未与输入的表数据进行对应，比如我们不知道一个列名是否是有效的列名。此时，Spark SQL 会利用其内部的规则及跟踪表数据的 Catalog 去解析这些属性关系，生成逻辑计划。然后 Catalyst 会在此基础上执行一些基于规则的优化，包括常量合并，谓词下推，投影，剪枝等，生成优化的逻辑执行计划[16]。然后会把逻辑计划转化成匹配 Spark 具体运行过程的操作，生成物理计划；这时候可能会生成多个物理计划，Spark SQL 会执行基于代价的算法模型进行代价预估，选择一个最优的执行计划。最后，利用代码生成把执行计划转化为每个机器上的可执行二进制代码，在这个过程中，利用 Scala 的quasiquotes 特性进行了一些优化[16]。1.3 研究内容与意义本部分内容着重讲述本文的课题来源，课题意义及研究的具体内容与创新点。

架构图,架构,主节点

图 2.1 MongoDB 分片集群架构图[28]主节点检测是否是主节点是否大多数可达是否有主节点主节点Priority 是否最高结束NNNpriority最高节点比其它节点opTime落后10s以内N主节点降级为从节点Y YYYY图 2.2 主节点检测图分成块的方法来存储集群上的内容，每个块（

本文编号：3067837

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3067837.html

上一篇：重庆市基层公共卫生人员职业倦怠现状及影响因素分析
下一篇：乌鲁木齐市居民健康素养现状及影响因素

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|