基于Hana的医疗大数据多维度挖掘
发布时间:2017-05-25 10:25
本文关键词:基于Hana的医疗大数据多维度挖掘,由笔耕文化传播整理发布。
【摘要】:随着人口老龄化问题日趋严重,我国的医疗费用占GDP比重的提升,以及医疗大数据领域将产生万亿市场价值等多因素的带动下,医学领域已经开始拥抱医疗大数据,并将其应用于医学研究、医学临床以及医学管理等各方面的实践。医疗机构对患者进行诊断和治疗过程中产生的数据统称为医疗数据,包括患者个人信息、就诊记录、医疗报告、医学影像数据和检验指标数据等。以上海瑞金医院来为例,日均需要接待上万人次的患者前来就诊,这么多数据汇集在一起,成年累月的增长量非常考验该医院数据库容量的存储能力。在长时间内进行有效的数据管理外,对这些医疗大数据进行数据挖掘使其能够帮助医院进行运营决策则是一个值得研究的课题。医疗行业在走向信息电子化的过程中就已经遇到了海量数据和非结构化数据的挑战,特别是近年来“大数据”概念的盛行,大公司们提出了很多关于医疗大数据的解决方案。针对这种情况,开展医疗大数据相关研究工作对医院的信息化发展是有着重要意义的。本课题基于Hana平台,结合对联机分析处理系统(OLAP)的研究,设计了一套用于支持多维度复杂查询的可视化系统,并在多维度数据集的基础上进行相关的数据挖掘工作,从而找到患者临床医疗大数据间潜在的未知知识。本文首先对上海瑞金医院在线应用系统中产生的临床数据进行预处理,给出了多张数据表的业务说明以及关联关系,并阐述了临床医疗数据的OLAP模型。在此基础上,本文通过分析系统的可行性与功能需求,从而设计了临床医疗数据的多维度可视化系统,分别介绍了系统中的四个主要的模块:数据预处理模块、数据建模模块、数据挖掘算法模块以及数据可视化模块。针对多病种情况,本文进行专门的数据分析。根据甲亢患者重要指标的检验情况,可以将甲亢患者治疗过程分成四个阶段:临床缓解阶段、生化缓解阶段、免疫缓解阶段以及免疫治愈阶段,而且每个阶段都可以出现治疗复燃情况。通过对不同阶段的患者数据进行分析,可以统计得出甲亢患者在不同阶段的治愈率。而糖尿病属于长期高血糖症状,检测指标众多,但往往多对指标组合存在强相关性。所以通过对糖尿病患者指标检验数据的分析,可以得到某对指标的潜在关系,从而为合理减少患者的多余检验检测提供了数据支持。最后,为了验证数据分析结果的有效性,本文还使用多种挖掘算法(关联规则算法、聚类分类算法等)对患者的检验报告、检验指标以及用药情况等数据等进行挖掘,通过对比而得出一些辅助性的医疗结论,这些结论可以为将来疾病的病因起源分析提供一定的理论支持。
【关键词】:数据分析 数据挖掘 医疗大数据 关联规则 聚类
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要4-6
- Abstract6-11
- 1 绪论11-16
- 1.1 研究背景11
- 1.2 研究现状11-13
- 1.3 研究内容13-14
- 1.4 论文结构14-16
- 2 相关技术介绍16-23
- 2.1 数据挖掘的概念16
- 2.2 数据挖掘的过程16-17
- 2.3 系统涉及的关键技术17-21
- 2.3.1 Hana数据库18
- 2.3.2 ETL18-19
- 2.3.3 SQLScript19-20
- 2.3.4 BO20
- 2.3.5 数据仓库、数据集市与数据挖掘20-21
- 2.4 系统实现的难点21-22
- 2.5 本章小结22-23
- 3 系统分析与设计23-33
- 3.1 可行性分析23-26
- 3.1.1 数据量大小23-25
- 3.1.2 算法可行性25-26
- 3.2 需求分析26-27
- 3.2.1 数据多维度分析的需求26
- 3.2.2 性能需求26-27
- 3.3 系统开发环境27
- 3.4 系统的整体框架设计27
- 3.5 概要设计27-31
- 3.5.1 系统功能结构28
- 3.5.2 系统模块设计28-31
- 3.6 本章小结31-33
- 4 OLAP系统实现33-45
- 4.1 数据建模33-34
- 4.2 主要的数据表结构34
- 4.3 视图集成34-37
- 4.3.1 属性视图35-36
- 4.3.2 分析视图36
- 4.3.3 计算视图36-37
- 4.4 PAL算法的实现37-38
- 4.5 BO平台对外提供查询38-44
- 4.6 本章小结44-45
- 5 多病种临床数据分析45-56
- 5.1 甲亢临床数据分析45-52
- 5.1.1 甲亢缓解过程分析45-49
- 5.1.2 甲亢缓解天数分析49-50
- 5.1.3 甲亢再燃过程50-51
- 5.1.4 甲亢再燃天数过程51-52
- 5.2 糖尿病临床数据分析52-55
- 5.2.1 糖尿病指标A1C跟GLU的相关性分析53-54
- 5.2.2 糖尿病A1C与GLU正常率分析54-55
- 5.3 本章小结55-56
- 6 多病种多维度数据挖掘56-80
- 6.1 多维度数据挖掘56-58
- 6.2 关联规则算法在Hana上实现58-62
- 6.2.1 Hana PAL APRIORI算法的编程规范59-60
- 6.2.2 Hana实现APRIORIRULE60-62
- 6.3 聚类算法在Hana上实现62-65
- 6.3.1 Hana PAL K分值硬聚类算法K-Means编程规范62-64
- 6.3.2 Hana实现K-Means64-65
- 6.4 关联规则算法在甲亢数据上的应用65-72
- 6.5 关联规则算法在糖尿病数据上的应用72-74
- 6.6 聚类算法在甲亢数据上的应用74-78
- 6.7 数据挖掘带来的医疗隐私问题78-79
- 6.8 本章小结79-80
- 7 总结与展望80-82
- 7.1 课题总结80
- 7.2 课题展望80-82
- 致谢82-83
- 参考文献83-85
- 攻读学位期间的研究成果目录85
【相似文献】
中国重要报纸全文数据库 前4条
1 本报记者 邱燕娜;云计算、HANA支撑业务双位数增长[N];中国计算机报;2014年
2 《网络世界》记者 王莹;SAP挟HANA征战大数据时代[N];网络世界;2012年
3 本报记者 邱燕娜;HANA扛起SAP创新大旗[N];中国计算机报;2012年
4 本报记者 邱燕娜;SAP引导商务套件用户选择HANA[N];中国计算机报;2013年
中国硕士学位论文全文数据库 前1条
1 梁晓杰;基于Hana的医疗大数据多维度挖掘[D];东华大学;2016年
本文关键词:基于Hana的医疗大数据多维度挖掘,由笔耕文化传播整理发布。
,本文编号:393481
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/393481.html