基于Spark医疗信息大数据交互统计分析研究
发布时间:2020-09-14 13:41
现阶段,国内卫生系统的卫生统计工作已经基本实现了信息化全覆盖。这为数据的统计提供了可能,也为数据统计的及时和有效性提供了可能。但是同时也要认识到,现在的医疗信息统计技术,远远没有实现医疗信息大数据的共享,大数据技术在医疗信息统计领域还处于初期阶段。医疗卫生管理部门面对庞大的医疗信息数据,没有可靠的技术手段对数据信息抓取分析,面对突发卫生事件,不能快速提供可靠的处置手段。医生、科研人员在面对海量的数据,没有可靠的手段,查询使用有效信息,个人处理的具有代表性的疾病案例,不能进行系统的统计。综上所述,在面对庞大的医疗数据时,能够作用交互统计的方式进行快速分析,具有极高的研究整理价值。本文综合运用文献分析,对比研究,实证分析等方法对现有的大数据处理技术进行综合考虑,确定采用Spark处理技术。Spark以其基于内存运算,适合机器学习迭代计算的优势,成为目前大数据领域主流的处理工具。利用多种应用模块,可以应用于各种大数据场景,也适合本研究的医疗信息大数据交互统计分析。最终使用合适的技术,设计出医疗信息大数据交互式统计系统,并进行验证。在研究时,将各层最为主要的功能进行分析,并规范处理数据时的流程;其次,对于数据查询的方式进行了升级,提高效率;最终保证在领域基础下对医疗数据进行了平台的测试以及后期思路的制定。经过实证研究检验,提出优化数据查询效率的解决方案;在对基础医疗卫生行业领域的决策逻辑与业务进行深入分析的基础上,分析了助于医疗辅决策的数据信息的有效方法;对于数据的储存、数据的预处理和效率更高的可视化服务以及计算服务等三个方面进行了算法的升级和结构的规划。使用门诊流程所涉及到相关数据表的抽样数据,对系统的功能和性能进行对比测试,验证了系统的科学性、实效性和可靠性。
【学位单位】:江西财经大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:R-05;TP311.13
【部分图文】:
.1 应用需求分析医疗信息大数据交互统计分析系统处理的数据对象为医疗服务大数据,从需分析的角度来看,设计原则需要满足大数据交互统计分析系统和分布式计算的本原则,即具有可使用性、容错性能高及未来的可扩展性。并且,为了更好的握医疗信息的动态情况,系统同时也需要满足实时性的要求,做到能够实现数交互。医疗大数据可以为以下几个人群进行服务。(1) 医疗工作者。提供临床辅助决策、单病种统计、用药治疗、不良反应等等。(2) 患者。病历管理、健康档案管理、健康预警与疾病预测等等。(3) 管理者。决策支持、财务管理、传染病防治等等。(4) 研发人员。药物研发、临床用药数据、科研服务。(5) 本研究将最终使用基于 spark 技术构建医疗信息大数据交互统计分析系统,来满足医疗大数据的数据采集、数据清洗、分布式存储、数据检索、和交互式应用展现的需要。具体构想如图 2-1 所示。
19图 3-1 系统架构设计由于医院信息系统众多,不同的业务系统的厂家、产品架构皆不相同,数能来源于数据库,数据爬取,各类文件等等,这时候先需要对这些数据统一标准化处理,使用 OFS 算法内的“区域标记”等算法,把数据转换成标准数据。最后,使用 Kafka 与 Spark Streaming 相结合,对流式计算处理系统进行和搭建。Kafka 作为一个消息中间件负责消息分发及数据缓存机制。Kafka 把数据处流式数据并进行分发。Kafka 在此起到了消息中间件作用。OFS 算法被加入Spark Streaming 中,在线筛选特征数据得以实现,得到文本向量的 DStre为中间的结果,然后被存储在内存中。另一方面,根据 SparkMLlib 的特点进线学习,将分类模型进行训练,之后,所获取的文本向量 DStream 输入至该模型中,再进行分类计算,得到分类结果 RDD,最后存储在 HDFS,数据分过程完成。
Master 可以在有向图中对所有的 WorkerNode 分配一个任务,并再次对每一个 Worker 节点进行发送。(3)加载完成数据任务以及接收到任务之后,WorkerNode 便会根据这些数据进行计算任务的执行,每一个子任务被执行之后,都会通知 MasterNode 已经完成,MasterNode 便能够时时刻刻的把握任务处理的进度。(4)当每一个 WorkerNode 将自身的任务完成之后,会根据用户提交任务时所选择,通过 MasterNode 合并数据后统一存储在 HBase 中或由每一个 Worker 分别直接将数据存储至 HBase 中。3.2.2 交互式查询请求与数据展示查询本功能模块负责对数据的各类统计结果进行交互式的展示与实现,负责将存储在 HBase 中的数据展示分析结果。交互式查询展示通过 Web 的方式,使用表格时间轴、地理图、信息关联图等方式进行展示。系统还提供数据交互接口,用来满足各种对外数据展示的需求。交互式查询业务处理的流程如图 3-2 所示。
本文编号:2818240
【学位单位】:江西财经大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:R-05;TP311.13
【部分图文】:
.1 应用需求分析医疗信息大数据交互统计分析系统处理的数据对象为医疗服务大数据,从需分析的角度来看,设计原则需要满足大数据交互统计分析系统和分布式计算的本原则,即具有可使用性、容错性能高及未来的可扩展性。并且,为了更好的握医疗信息的动态情况,系统同时也需要满足实时性的要求,做到能够实现数交互。医疗大数据可以为以下几个人群进行服务。(1) 医疗工作者。提供临床辅助决策、单病种统计、用药治疗、不良反应等等。(2) 患者。病历管理、健康档案管理、健康预警与疾病预测等等。(3) 管理者。决策支持、财务管理、传染病防治等等。(4) 研发人员。药物研发、临床用药数据、科研服务。(5) 本研究将最终使用基于 spark 技术构建医疗信息大数据交互统计分析系统,来满足医疗大数据的数据采集、数据清洗、分布式存储、数据检索、和交互式应用展现的需要。具体构想如图 2-1 所示。
19图 3-1 系统架构设计由于医院信息系统众多,不同的业务系统的厂家、产品架构皆不相同,数能来源于数据库,数据爬取,各类文件等等,这时候先需要对这些数据统一标准化处理,使用 OFS 算法内的“区域标记”等算法,把数据转换成标准数据。最后,使用 Kafka 与 Spark Streaming 相结合,对流式计算处理系统进行和搭建。Kafka 作为一个消息中间件负责消息分发及数据缓存机制。Kafka 把数据处流式数据并进行分发。Kafka 在此起到了消息中间件作用。OFS 算法被加入Spark Streaming 中,在线筛选特征数据得以实现,得到文本向量的 DStre为中间的结果,然后被存储在内存中。另一方面,根据 SparkMLlib 的特点进线学习,将分类模型进行训练,之后,所获取的文本向量 DStream 输入至该模型中,再进行分类计算,得到分类结果 RDD,最后存储在 HDFS,数据分过程完成。
Master 可以在有向图中对所有的 WorkerNode 分配一个任务,并再次对每一个 Worker 节点进行发送。(3)加载完成数据任务以及接收到任务之后,WorkerNode 便会根据这些数据进行计算任务的执行,每一个子任务被执行之后,都会通知 MasterNode 已经完成,MasterNode 便能够时时刻刻的把握任务处理的进度。(4)当每一个 WorkerNode 将自身的任务完成之后,会根据用户提交任务时所选择,通过 MasterNode 合并数据后统一存储在 HBase 中或由每一个 Worker 分别直接将数据存储至 HBase 中。3.2.2 交互式查询请求与数据展示查询本功能模块负责对数据的各类统计结果进行交互式的展示与实现,负责将存储在 HBase 中的数据展示分析结果。交互式查询展示通过 Web 的方式,使用表格时间轴、地理图、信息关联图等方式进行展示。系统还提供数据交互接口,用来满足各种对外数据展示的需求。交互式查询业务处理的流程如图 3-2 所示。
【参考文献】
相关期刊论文 前10条
1 刘星;王晓敏;;医疗大数据建设中的伦理问题[J];伦理学研究;2015年06期
2 邓仲华;宋秀芬;;基于知识图谱的国内外大数据研究对比分析[J];信息资源管理学报;2015年04期
3 车晋强;谢红薇;;基于Spark的分层协同过滤推荐算法[J];电子技术应用;2015年09期
4 张振勇;张晓勤;李海琳;;区域化信息医疗平台建设研究[J];齐鲁工业大学学报(自然科学版);2015年02期
5 张丹阳;曹维焯;薛志云;何军;;阿里云实现Spark的分布式计算[J];福建电脑;2015年02期
6 孟宪平;;大数据语境中人的自由全面发展及现实路径分析[J];当代世界与社会主义;2015年01期
7 熊军;钟竹青;姚山虎;罗爱静;;国外医生应用电子病历系统关键因素的分析[J];中国卫生信息管理杂志;2015年01期
8 李学龙;龚海刚;;大数据系统综述[J];中国科学:信息科学;2015年01期
9 马斌;周平;张建业;卿松;李猷;;大数据时代的数据挖掘[J];中国科技信息;2014年23期
10 吴韶鸿;;大数据开源技术发展研究[J];现代电信科技;2014年08期
相关硕士学位论文 前1条
1 李爽;基于Spark的数据处理分析系统的设计与实现[D];北京交通大学;2015年
本文编号:2818240
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2818240.html