当前位置:主页 > 医学论文 > 医卫管理论文 >

肿瘤、心血管重大疾病临床与组学大数据存储及挖掘技术研究

发布时间:2020-03-28 10:02
【摘要】:随着医疗信息技术和生物科技的迅猛发展,生物医疗行业的数据量呈爆炸式增长。作为生物医疗数据最重要的组成部分,临床与组学数据是指在疾病的诊治和组学分析中产生的电子病历、检查报告、影像、信号数据、基因序列数据等。在某些重点专科医院,临床数据的积累已达到百TB的规模,而在组学研究领域更是达到了PB级。这些数据的挖掘应用将对研究疾病发生发展规律、提高诊治水平等具有重大潜在价值。然而,随着海量数据的不断累积和应用需求的更加复杂化,临床与组学数据存储和挖掘面临着许多新的问题,制约了其更好地实际应用。为研究适合临床与组学大数据存储和挖掘的高效方法,本文以对人类危害极大的肿瘤、心血管疾病为例,深入分析了两类疾病在诊治和愈后管理过程中,如何充分利用已有数据提高诊断正确率、确定科学的治疗方案,使大多数医生均成为“有丰富医疗经验的高价值”医生。对数据应用过程中面临的多源异构集成存储,高速并行访问及高效挖掘算法等问题提出了一些解决方案。首先,在深入分析临床与组学大数据组成和技术特性的基础上,本文将分散、异构、多源、非结构化的数据分为文档数据、小文件和大文件三类,并以NoSQL作为存储底层,MapReduce作为计算引擎,构建了面向并行数据挖掘的分布式存储模型MSPM(Medical Storage Platform for Mining)。该模型实现了三类数据的一体化集成存储和统一规则访问,并适于并行化的数据分析和挖掘。同时,借助NoSQL的自动分片和副本集机制,可满足应用对高可扩展性、高可靠性的需求。然后,针对MSPM模型存在的两个主要性能瓶颈进行了优化。为应对集群系统失衡问题,提出了综合应用组合调优片键和FDO-DT(Double Threshold based on Frequence of Data Operation)算法的改进策略,解决了数据自动分片耗时长、开销大的问题,并实现了数据存储与读写的双均衡;为解决频繁访问原始大文件造成的系统性能不佳问题,设计了大文件特征库,通过医学文档关键信息抽取、元信息提取、挖掘结果动态俘获等将大文件的各类常用信息集成在库中,并由对库的访问转移一部分对大文件的直接操作,显著节约了系统总开销。最后,为解决经典Apriori算法在医疗大数据挖掘中,面临的类型复杂、属性高维,开销大,结果针对性差等问题,设计了改进的Apriori-M-DB算法。通过以键值对形式统一存储,实现了对复杂异构类型数据的挖掘。并通过MapReduce化,一次扫描选取所有候选项集和兴趣集约束计数等,提高了挖掘的效率和针对性。
【图文】:

医疗数据,医疗服务,医院信息管理系统,多种信息


帮助确定肿瘤的分级和分期,确定不同个体间的差异,进而指同时,高通量测序技术的发展也使得基因检测变得越来越大众临床创造了条件。在天津医科大学附属肿瘤医院,已经有相当前会选择进行基因检测。际的诊疗活动中,往往需要多种诊断方式的组合才能最终确定的阶段等[7]。传统诊治技术与组学技术相辅相成,将两者结合瘤、心血管疾病的诊治,已经成为必然。2 临床与组学数据的海量累积诊疗技术在提高医疗水平的同时,也留下了海量宝贵的临床与疗行业每年会产生大量的医疗数据,一般的医疗机构每年会产相关数据,个别大医院的年数据量甚至达到了 300TB~1PB。020 年,医疗数据将急剧增长到 35 Zetabytes, 相当于 2009 年,近年来,医疗服务产生的数据总量,,如图 1.3[8]所示。

电子病历,住院病历,病案首页,检查记录


测序数据是一种典型的组学数据,本文主要考虑的是基因测序数据,以此表研究同类组学数据的相关方法。2.2 典型数据的技术特性分析为了对各类数据能有深刻的认识,在临床与组学数据归类的基础上,将重点几类典型数据的特性。本节将依次对电子病历、检验数据、心电数据、影据、造影视频、基因测序数据这几种典型数据进行特性分析。2.2.1 电子病历数据技术特性分析电子化的医疗病历是临床数据一个重要的数据源。卫生部颁布的《电子病历架构与数据标准》中对电子病历的定义是:电子病历是由医疗机构以电子化创建、保存和使用的,重点针对门诊、住院患者(或保健对象)临床诊疗和干预信息的数据集成系统,是居民个人在医疗机构历次就诊过程中产生和被的完整、详细的临床信息资源[15]。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:R-05;TP311.13

【参考文献】

相关期刊论文 前10条

1 秦强;王晏民;黄明;;基于MongoDB的海量遥感影像大数据存储[J];北京建筑大学学报;2015年01期

2 劳海彬;陈刚;王璐;陈明;肖晓兰;;电子病历集中归档存储的设计与实施思路[J];中国病案;2015年03期

3 孙艳秋;王甜宇;曹文聪;;基于云计算的医疗大数据的挖掘研究[J];计算机光盘软件与应用;2015年02期

4 刘言青;刘光明;董文睿;胡维;;ZFS在基于HDFS的近线存储系统中性能分析与实现[J];计算机研究与发展;2014年S1期

5 林长方;吴扬扬;黄仲开;曾少俊;;基于MapReduce的Apriori算法并行化[J];江南大学学报(自然科学版);2014年04期

6 陈伟伟;高润霖;刘力生;朱曼璐;王文;王拥军;吴兆苏;胡盛寿;;中国心血管病报告2013概要[J];中国循环杂志;2014年07期

7 陈万青;张思维;曾红梅;郑荣寿;邹小农;赵平;吴良有;李光琳;赫捷;;中国2010年恶性肿瘤发病与死亡[J];中国肿瘤;2014年01期

8 潘祥林;王鸿利;;诊断学的任务与发展方向[J];中华诊断学电子杂志;2013年01期

9 邓志飞;应良佳;王军威;;基于IODA算法MongoDB负载均衡的改进[J];现代电信科技;2013年07期

10 何杭锋;;基于FODO算法MongoDB自动分片的改进[J];计算机技术与发展;2013年07期

相关硕士学位论文 前7条

1 徐原博;基于MapReduce的改进关联规则算法研究[D];吉林大学;2015年

2 张伟伟;面向I/O密集型应用的高性能计算机存储系统性能优化方法研究[D];国防科学技术大学;2012年

3 沈姝;NoSQL数据库技术及其应用研究[D];南京信息工程大学;2012年

4 朱安柱;基于Hadoop的Apriori算法改进与移植的研究[D];华中科技大学;2012年

5 刘志;基于XMLA标准的数据仓库统一访问接口的研究与实现[D];昆明理工大学;2012年

6 任(丰刀女);基于XML电子病历数据存储与转换的研究[D];西安电子科技大学;2010年

7 刘欣;面向挖掘的肺癌数据库设计及实现[D];第四军医大学;2008年



本文编号:2604296

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2604296.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a85c2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com