【摘要】:随着传染病监测与防控向广度和深度的不断发展,传染病监测与防控相关数据爆炸式的膨胀,传统操作型数据库为主的存储、管理和分析方式已无法满足海量数据分析利用的需求。人们要求计算机能够高效地处理海量日常数据的同时,更多地参与数据分析和决策支持,最大限度地满足疾病监测与防控的及时性与准确性,解决整个系统内由于信息不平衡引起的“信息孤岛”、数据冗余等问题。目前的军队传染病监测报告系统为联机事务处理模式,数据库设计不是为查询和数据分析而优化的,查询分析服务器和业务处理服务器使用同一个数据库,复杂查询分析影响业务系统的性能,而且分析模式固定单一,新增分析与功能扩展开发效率低下且不够灵活,难以满足疾控机构和卫勤管理机关对即时、灵活的数据分析和决策支持的需求。 数据仓库技术作为一种用于数据分析和决策支持的数据存储与组织技术,是实现海量数据高效管理与深入分析的有效解决方案。本文研究如何利用数据仓库技术解决军队传染病监测报告的数据分析和辅助决策问题,基于具体业务需求与可利用的数据源,设计并实现了军队传染病监测数据仓库。 首先,论文对军队传染病监测数据仓库进行需求分析。通过深入分析当前军队传染病监测报告系统现状,从系统构成、数据传输方式以及分析查询方式等角度,对当前系统的优缺点做出总结。在此基础上,对拟建数据仓库系统的功能需求、性能需求等做出详细规定。其中功能需求主要包括日常业务报表、业务探索式分析、数据加载处理与系统管理等四个方面,覆盖各类用户对于传染病监测数据分析和辅助决策应用的基本需求;性能需求主要对系统数据一致性、系统时间特性以及系统安全性等做出具体规定,保证系统的正常运行;同时还对系统的使用环境、数据传输、运维管理等进行了规定。 第二,完成了传染病监测数据仓库的系统设计,包括系统技术架构与多维数据模型设计等内容。通过对数据仓库开发关键技术深入分析比较,确定了技术选型。系统采用三层体系结构,分为数据源层、数据协调层与数据仓库层三部分,物理架构由数据源服务器、ODS服务器、数据仓库服务器、BI应用服务器和客户端计算机五部分组成。系统按照自底向上的建模方法,采用维度事实模型进行多维数据的概念模型设计,以星型模式进行逻辑建模,针对传染病发病情况与传染病报告审计两个主题设计维度总线,共享疾病、机构、地区三个维度。此外,传染病发病情况主题的基础粒度为某患者在某时间患某种传染病,具有诊断时间、开始时间、患者信息、职别、病例信息维度,报告审计事实表基础粒度为某疾控工作人员在某时间上报一份传染病报告,具有报告时间、报告卡信息、报告人信息、审核情况维度。在上述设计的基础上,完成了具体的事实表与维度表的设计。 第三,以全军疫情和突发公共卫生事件信息报告系统为主要数据来源,利用Oracle Warehouse Builder、Oracle BIEE软件等工具实现了传染病监测数据仓库,完成了多维数据模型构建、数据准备、分析系统开发等工作。利用OracleWarehouse Builder工具构建了数据仓库多维数据模型,包括源系统分析与数据驱动的多维数据模型构建。在数据准备阶段进一步检查和规范化数据源,利用PL/SQL脚本实现了自动化数据清洗,以Oracle Warehouse Builder为数据ETL工具设计实现从原始数据到统一操作型数据和统一操作型数据到多维模型数据两个阶段的数据ETL过程。以Oracle BIEE为主要工具完成联机分析系统的开发,涵盖日常业务报表、业务探索式分析以及相应系统管理等功能。 本文首次研究建立了全军性的传染病监测数据仓库,部署于全军疾病预防控制中心数据中心,为授权用户提供数据分析服务。系统包含83种军队规定上报的传染病的监测数据和业务运行监测数据,存储了报告卡数据约90万条,传染病发病报告数据3万余条,同时每日抽取处理约1000条报告进入数据仓库。系统解决了操作型数据库在传染病监测数据的存储、管理、分析等方面能力的不足,为传染病监测数据的深入管理与分析提供了一套高效的解决方案,为数据挖掘等更深层次应用提供了必要的技术基础,对传染病分析预警、辅助领导决策和相关科研具有重要参考价值。 在进一步的研究工作中,可以针对数据来源较为单一,分析主题还不够全面等问题,整合更广泛的数据源,扩展分析主题与功能体系,迭代开发新的数据集市。
【图文】: 加载至 ODS 服务器,实现集成数据的协调模式。具体实现过程如下。1) 针对已经构建的事实表与维度表设计协调数据模模式。本文为每个维度表与事实表创建一张对应的协调模式表,存储其所有相关属性。这种设计多张协调模式表会造成一定的数据冗余,但是可以大大简化下一阶段从协调模式到多维数据模型的 ETL 流程设计。2) 创建数据映射。Oracle Warehouse Builder 提供了一系列函数、操作符等工具用以定义数据映射过程,通过用户交互界面设计具体数据流程,将原始数据到协调模式数据的数据流图形化展示。3) 验证、生成、部署并运行所设计的映射,完成这一阶段的数据 ETL 工作。如图 4-1 为原始数据构建传染病发病情况协调模式表 INFECTIONCARD_STAGE的数据映射。传染病报告数据主表与各相关字典表联接,通过过滤器、数据截断、数据类型转换等操作,选取多维数据模型传染病发病情况事实表所需字段,映射入表 INFECTIONCARD_STAGE。
如图 4-2 为原始数据构建机构维度协调模式表 STAGE_ORG 的数据映射。源数据库机构编码表对机构进行 8 位变长编码,,机构共分四级,不同机构级别通过编码长度区分。机构维度协调模式表为各个级别每个机构创建一行数据,除机构编码、所属战区等常规属性外,还包含四级机构名称字段。对于高级别机构,其下级机构名称与其相同,例如 A 军区的四级机构名称均为 A 军区;对于第四级机构,则按其单位所属填充各级机构名称字段。映射过程主要分三步,首先是将所有机构按照编码长度分为四类,然后针对每类分别在机构编码字典表中查找各个级别的机构名称,最后将各字段填充进 STAGE_ORG 中。
【学位授予单位】:中国人民解放军军事医学科学院
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP311.13;R51
【参考文献】
相关期刊论文 前8条
1 肖永康;纪翠玲;;北京市空气质量数据仓库的设计与实现[J];测绘科学;2008年S1期
2 肖永康;纪翠玲;;北京市空气质量数据仓库的设计与实现[J];测绘科学;2008年S3期
3 彭佳红;一种基于空间数据仓库的作物信息多维数据模型[J];计算机与农业.综合版;2003年10期
4 崔松雪;刘艳艳;陈戈;;数据仓库技术在海洋大气地理信息系统平台中的应用[J];中国海洋大学学报(自然科学版);2009年S1期
5 李铄;刘庆红;武锐;;疾病预控数据仓库的研究[J];现代情报;2007年05期
6 赵霈生,杨崇俊;空间数据仓库的技术与实践[J];遥感学报;2000年02期
7 陈金雄,刘雄飞,王庆森;医院数据仓库的设计与实现[J];医疗卫生装备;2004年08期
8 ;信息化服务医院改革 北京大学人民医院数据仓库项目[J];中国信息界(e医疗);2010年02期
相关博士学位论文 前1条
1 李学锋;矿山企业数据仓库的应用研究[D];昆明理工大学;2005年
相关硕士学位论文 前4条
1 李明强;健康档案数据仓库构建及数据挖掘技术研究[D];重庆医科大学;2011年
2 沈金;疾病预控数据仓库系统原型研究及预控数据挖掘[D];武汉理工大学;2008年
3 刘冬林;基于GIS的天然冷热资源数据仓库的设计及其应用[D];重庆大学;2009年
4 王晓冰;基于电子健康档案数据仓库的区域卫生信息系统数据集成研究[D];江苏大学;2010年
本文编号:
2580764
本文链接:https://www.wllwen.com/yixuelunwen/chuanranbingxuelunwen/2580764.html