基于MapReduce的医疗临床大数据筛选机制研究与应用
发布时间:2021-05-06 18:03
临床医疗数据的筛选查询是医学工作的重要内容,是数据处理、数据查询技术在医疗领域的重要应用。有效的筛选方法和查询机制有助于医疗数据的挖掘利用,支撑信息统计、个性化医疗、决策辅助、随访跟踪、药物研发、健康管理、精准医疗等数据应用需求。临床医疗数据的筛选查询主要面临两个挑战:一是数据量大,大规模数据的存储和计算超过了传统关系型数据库的性能极限;二是数据结构类型复杂,尤其是非结构化的数据需要特定的处理方法。本文针对当前医疗临床数据的特点,研究临床数据分布式计算办法,主要利用开源大数据工具Hadoop技术,结合MapReduce计算模型,提出多结构医疗数据的并行筛选机制。该机制采取平台统筹、分类处理、易于扩展的设计思想,把不同类型结构的数据纳入统一的MapReduce计算平台。本文主要分别实现在平台中对结构化的表单数据、时间序列数据以及病历文本数据的查询计算,并优化筛选查询算法,解决医疗临床多种结构数据的分布式计算和跨结构筛选的问题,提高查询效率。本文主要研究内容如下:1.海量医疗结构化数据的分布式存储与查询优化;2.海量医疗时间序列数据的分布式索引创建与查询优化;3.海量医疗文本数据的分布式索...
【文章来源】:中国人民解放军海军军医大学上海市 211工程院校
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
中英文缩略词对照表
一、前言
(一)课题研究背景与意义
(二)国内外研究和发展趋势
1、医疗大数据存储与查询技术现状
2、时间序列数据索引与查询现状
3、医疗文本数据索引与查询现状
(三)主要研究内容与创新点
(四)本文内容安排
二、理论与技术
(一)医疗大数据的特点分析
(二)大数据处理算法与技术
1、MapReduce架构
2、Hadoop技术
(三)结构化数据筛选
1、Hive技术
2、ORC列式存储技术
(四)时间序列数据处理算法与技术
1、时间序列查询
2、时间序列的降维表示
3、维度层次分解索引
4、DSTree索引
5、相关工作
(五)全文检索算法与技术
1、倒排索引
2、相关工作
(六)数据筛选平台架构
(七)本章小结
三、结构化数据分布式存储与查询
(一)基于MapReduce的医疗结构化数据存储与查询
(二)临床结构化数据查询优化
(三)实验分析
1、实验一:Hive平台与关系数据库查询医疗数据的比较
2、实验二:结构化数据优化前和优化后查询性能比较
(四)本章小结
四、时间序列数据分布式索引与查询
(一)基于MapReduce的 DB-DSTree分布式索引
1、基于DHD索引的路由树的创建
2、分布式DSTree索引的创建
(二)DB-DSTree批量查询
(三)实验分析
1、实验一:索引创建时间比较
2、实验二:批量查询性能比较
(四)本章小结
五、文本数据分布式存储与查询
(一)医疗文本数据分析
(二)医疗文本倒排索引构建与查询
(三)面向医疗文本筛选准确率的优化
(四)实验分析
1、实验一:建立倒排索引与无索引查询比较
2、实验二:文本数据筛选
(五)本章小结
六、基于MapReduce的医疗临床大数据筛选平台原型的实现
(一)数据筛选平台
(二)多类型数据筛选
(三)实验搭建
1、基础配置
2、主要工具配置
(四)实验测试
(五)本章小结
七、总结与展望
(一)全文工作总结
(二)后续工作展望
参考文献
文献综述
参考文献
致谢
本文编号:3172379
【文章来源】:中国人民解放军海军军医大学上海市 211工程院校
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
中英文缩略词对照表
一、前言
(一)课题研究背景与意义
(二)国内外研究和发展趋势
1、医疗大数据存储与查询技术现状
2、时间序列数据索引与查询现状
3、医疗文本数据索引与查询现状
(三)主要研究内容与创新点
(四)本文内容安排
二、理论与技术
(一)医疗大数据的特点分析
(二)大数据处理算法与技术
1、MapReduce架构
2、Hadoop技术
(三)结构化数据筛选
1、Hive技术
2、ORC列式存储技术
(四)时间序列数据处理算法与技术
1、时间序列查询
2、时间序列的降维表示
3、维度层次分解索引
4、DSTree索引
5、相关工作
(五)全文检索算法与技术
1、倒排索引
2、相关工作
(六)数据筛选平台架构
(七)本章小结
三、结构化数据分布式存储与查询
(一)基于MapReduce的医疗结构化数据存储与查询
(二)临床结构化数据查询优化
(三)实验分析
1、实验一:Hive平台与关系数据库查询医疗数据的比较
2、实验二:结构化数据优化前和优化后查询性能比较
(四)本章小结
四、时间序列数据分布式索引与查询
(一)基于MapReduce的 DB-DSTree分布式索引
1、基于DHD索引的路由树的创建
2、分布式DSTree索引的创建
(二)DB-DSTree批量查询
(三)实验分析
1、实验一:索引创建时间比较
2、实验二:批量查询性能比较
(四)本章小结
五、文本数据分布式存储与查询
(一)医疗文本数据分析
(二)医疗文本倒排索引构建与查询
(三)面向医疗文本筛选准确率的优化
(四)实验分析
1、实验一:建立倒排索引与无索引查询比较
2、实验二:文本数据筛选
(五)本章小结
六、基于MapReduce的医疗临床大数据筛选平台原型的实现
(一)数据筛选平台
(二)多类型数据筛选
(三)实验搭建
1、基础配置
2、主要工具配置
(四)实验测试
(五)本章小结
七、总结与展望
(一)全文工作总结
(二)后续工作展望
参考文献
文献综述
参考文献
致谢
本文编号:3172379
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3172379.html