当前位置:主页 > 论文百科 > 研究生论文 >

基于甲状腺疾病的临床数据挖掘与分析研究

发布时间:2016-06-25 06:46

第一章  绪论

1.1  研究背景及意义
医疗信息技术和互联网的飞速发展形成了医院信息系统、公共卫生信息系统、远程医疗、家庭护理和区域协同医疗等数百亿的医疗卫生产业,并得到了学术界和工业界的广泛重视[1,2]。 在我国,医院大范围建设以电子病历为重点的临床信息系统已进行了 10 多年。电子病历、医护工作站、实验室信息系统、医学影像传输和存储系统、放射科信息系统、手术麻醉管理系统、病理管理系统、心电电生理管理系统等临床信息系统已被引入到医院中。据中国医院协会信息管理专业委员会发布的2013-2014 年度中国医院信息化状况调查显示,电子病历、医护工作站已在 80%以上医院建设,其它上述信息系统也已在 50%以上医院建设[3]。 这些临床信息系统的引入已为医疗行业积累了海量的、有价值的临床数据资源,以本课题的研究对象上海某大型三甲综合性医院为例,该院在为患者提供医疗服务的过程中,积累了大量的临床数据,产生的年临床数据约在 60TB。其中既有医院信息系统(HIS)数据,也有医学影像数据(PACS)和病理报告等。这些临床数据呈现出数据量大、数据形式多元、数据变化快和数据价值高的“大数据”特征。 随着医疗服务水平的不断提高,人们对医疗诊断效率以及准确度有了更高的要求,同时医疗从业者对临床数据也有更深层次的研究分析需求。如果能够对上述海量的临床数据进行有效利用,分析挖掘出其中隐含的信息,对于提高医疗诊断准确性、防治疾病和攻克顽疾等将具有重要意义,同时,还可以为患者提供个性化精准诊疗服务,为医疗行业的管理者提供更好的决策支持。 因此,临床数据的研究与分析在大数据时代显得越来越重要。如何从大量的历史临床数据中发现有价值的信息,提高疾病诊断的准确性和研究疾病的发展趋势,已成为摆在临床数据分析面前的难题。为了解决该问题,近年来很多学者将数据挖掘技术应用到医学领域中。 
.........

1.2  国内外研究现状
面对大量结构复杂和种类繁多的医疗数据,传统的统计方法已经无能为力;数据挖掘技术是传统统计分析方法的延伸和补充,能够通过数据挖掘算法对复杂的医疗数据进行分析处理,从而实现自动的信息模式的获取。 国外对于医学数据挖掘的研究起步较早,在医学图像分类、疾病诊断、药物管理等方面的成果比较丰富。文献[6]提出了利用人工神经网络方法对计算机断层扫描(CT)和磁共振成像(MRI)等医学影像进行分类的方法。文献[7]中对七种不同类型的神经网络进行研究以实现对甲状腺疾病更强大和更可靠的的诊断。使用启发式训练算法的前馈多层神经网络的精度值比类似的研究要高。文献[8]提出了通过决策支持系统对医生处方中的用药量、用药频率等因素进行辅助指导,引导医生对肾功能不全的病人制定更准确的治疗方案,减少医疗事故。文献[9]提出了分别采用决策树、贝叶斯和神经网络等数据挖掘技术,开发了一个智能心脏病预测系统原型系统(IHDPS)。IHDPS 系统能够通过年龄、性别、血压和血糖等医疗数据来预测心脏病的可能性。文献[10]提出了利用朴素贝叶斯建立心脏病预测决策支持系统,使用如年龄,性别,血压和血糖等信息可预测心脏疾病发生的可能性。文献[11]提出了一种用于眼底图像自动分类方法。对比了朴素贝叶斯分类器、K 近邻和支持向量机三种方法,发现朴素贝叶斯分类器优于其他两个分类方法。 我国的医院信息系统(HIS)经过多年的信息化建设,已具备相当的物质条件和人才储备,并积累了大量数据,为数据挖掘的应用奠定了一定的物质基础。而且,医院信息化发展是我国信息化建设的重要组成部分,国家对此给予了高度的重视并提供了大量政策上和经济上的支持,为行业性数据挖掘的实施提供了良好的政策环境和经济保障。 
...........

第二章  相关技术研究

本文的研究目标是通过数据挖掘技术,从大量的甲状腺病人的临床数据中获取有效的分类规则及关联规则。因此,本章主要介绍本文用到的相关技术,包括医学数据挖掘技术,分类算法和关联规则算法。同时介绍了数据展示技术的两个重要组成部分:HANA(High-Performance Analytic Appliance)数据库管理系统和 BO(Business Objects)技术。 

2.1  医疗数据挖掘
数据挖掘是一门交叉学科,涉及到数据库技术、模式识别、机器学习、人工智能、并行计算、统计学和数据可视化等领域。简单来说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的潜在有用的信息和知识的过程。数据挖掘是知识发现中的一个关键步骤,是在对数据全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括,也是对数据从感性认识到理性认识的升华。自 20 世纪末提出以来,引起了许多专家学者的广泛关注。 医学的发展已经由经验医学、实验医学转向目前以证据为基础的循证医学, 医学数据产生量大,具在客观性、实验性等特点,积极探索数据挖掘在此领域中的应用具有重要的实用价值和经济价值。 医疗数据挖掘的过程大致分为五个部分:定义问题,数据准备,数据挖掘,结果分析,知识运用。首先需要与医疗专家进行充分交流,进行需求分析,定义需求,并决定数据挖掘的目标以及衡量数据挖掘方法的成功标准。确定挖掘的数据源,主要包括数据库中的数据源,包括数据集成(将多文件或多数据库运行环境中的异构数据进行合并处理,数据清洗(去除原数据集中的噪声数据和无关数据,处理缺失的数据和清洗脏数据),数据变换(主要是找到数据的特征表示,用转换方式减少有效变量的数目或找到数据的不变式)。 
..........

2.2  分类算法
对医学数据进行挖掘的主要目的是预测疾病,常用的方法有贝叶斯[15,16]、人工神经网络[17]、决策树[18,19]等基本分类算法,同时也有集成分类算法如 Bagging算法[20]、AdaBoost 算法[21]等。基于后验概率的贝叶斯定理,是建立在对数据进行统计处理基础上的方法。贝叶斯的优点是理论简单,易于理解,学习的速度很快,实用性强,训练集的个数只要不是变动很大,其分类结果是不会改变的,预测效果较好,缺点是对发生频率很低的事件预测效果不好。 朴素贝叶斯分类假设一个属性值对指定类别的影响和其他属性对该类别的影响是独立的,这主要是为了简化后面的计算步骤。属性之间保持独立性是该算法的必要条件。只有符合假设条件独立时,才会保证较高的分类准确率。人工神经网络是一种模仿生物神经网络,以人工神经元为基本运算单元的一类并行处理网络,利用非线性映射的思想和并行处理的方法。人工神经网络具有很强的自组织性、鲁棒性和容错性,,通过简化、归纳,用神经网络结构来表达输入和输出。 人工神经网络已经在如航天、智能识别、地震预测等领域得到广泛的应用。人工神经网络应用于医学领域亦有近 30 多年的历史,但是近 10 余年才有较快的发展。神经网络具有结构复杂、训练时间长、结果表示不容易理解等缺点,但其对噪声数据的承受能力强,错误率低,具有较好的并行性,这些优点是其他方法所不及的。各种网络训练算法,尤其是各种网络剪枝算法和规则提取算法的不断提出与完善,使得神经网络在数据挖掘的应用中越来越受到大家的青睐。目前国内外有很多研究在探讨其在临床工作中的应用。 
........

第三章   临床数据平台的总体架构设计 ........ 15 
3.1  医院信息系统现状 ........ 15
3.2  总体架构设计 ......... 16 
3.2.1  逻辑架构设计 ..... 16 
3.2.2  物理架构设计 ..... 17 
3.3  本章小结 .......... 19 
第四章  甲状腺疾病临床数据预处理和多维分析 ........ 20
4.1  甲状腺疾病临床数据概况 .......... 20 
4.1.1 数据选取 ....... 20 
4.1.2 表结构 .... 22 
4.2  甲状腺数据的预处理 .... 23 
4.2.1 数据抽取 ....... 24 
4.2.2 数据清洗 ....... 25 
4.2.3 数据转换 ....... 28 
4.3  甲状腺疾病临床数据多维分析及可视化 ....... 28 
4.3.1  多维分析 ...... 29 
4.3.2  可视化展示 ......... 31 
4.4  本章小结 .......... 34 
第五章  甲状腺疾病的分类方法 ........ 35 
5.1  相关研究 .......... 35 
5.2  随机森林算法介绍 ........ 36 
5.3  基于随机森林的甲状腺疾病分类 ..... 37 
5.4  本章小结 .......... 45 

第五章  甲状腺疾病的分类方法

在临床医疗中,甲状腺疾病类型的准确诊断是治愈的首要问题。本章针对甲状腺疾病的临床数据,提出一种基于随机森林的甲状腺疾病类型的分类方法,该方法首先采用主成分分析法对数据集进行特征选择,降低数据维度,然后利用随机森林算法实现分类。实验表明,在 UCI 标准数据集中,该方法的分类准确率可以达到 94.88%;在数据量及其维度都比 UCI 标准数据集高的真实临床医疗数据集中,准确率可达到 96.16%。 

5.1  相关研究

甲状腺疾病的种类较多,主要包括甲亢、甲减、甲状腺结节以及各种种类的甲状腺癌等。在甲状腺疾病的实际临床治疗中,医生首先对患者的促甲状腺激素(TSH)、三碘甲状腺氨酸(T3)以及甲状腺素(T4)等多项相关指标进行检测,然后依靠临床经验来分析这些检测数据,具体确诊患者所患甲状腺疾病的种类,最后根据不同疾病的种类采取相应的治疗方案[26]。 在这个过程中,最重要的是医生要能依据患者的多项检测指标数据,正确地判断患者所患甲状腺疾病。由于不同医生的知识水平和临床经验等存在差异性,势必会出现一定的误诊率,错误的临床决策将会导致严重的后果。因此,为了辅助医生诊断决策,提高医生诊断的正确率,研究如何利用计算机对甲状腺检测指标数据进行挖掘分析,从而对患者所患甲状腺疾病的种类进行分类成为近年来学者们关注的热点。 国外学者们分别从神经网络、模式识别和专家系统等方面用计算机来实现甲状腺疾病的分类。文献[27]首次提出利用神经网络的方法来诊断甲状腺疾病,比较了反向传播(MLP  with  bp)、径向基函数(RBF)以及自适应圆锥截面函数(CSFNN)等神经网络算法。文献[28]通过概率神经网络(PNN),学习矢量量化神经网络(LVQ)对甲状腺疾病的诊断进行了比较研究,采用概率神经网络算法分类准确率最高。文献[29]从选择不同的神经网络激励函数入手,文中通过对Sigmoid 函数、双曲正切函数、神经元函数、对数函数、正弦函数和指数函数等比较,得出神经元函数最适合甲状腺疾病分类的结论。

基于甲状腺疾病的临床数据挖掘与分析研究

..........

总结

本文利用上海市某大型三甲综合医院提供的真实甲状腺疾病数据集作为处理对象,研究了甲状腺疾病临床数据的数据挖掘与分析技术,设计并实现了多维分析与展示系统。 本文主要完成以下 4 个方面工作: 
(1)通过分析医院信息系统的现状和存在的问题,对现有业务系统的数据进行梳理,设计了以数据仓库为基础的临床数据分析平台。设计了系统总体架构,包括逻辑和物理架构设计。 
(2)从所构建的临床医疗数据平台上抽取了甲状腺病人的临床数据,对原始数据采用数据清理、变换、集成等 ETL 技术对其进行了预处理,并实现了甲状腺疾病数据的多维分析和可视化展示,根据用户的反馈不断优化和改进可视化模板。 
(3)在甲状腺疾病的临床医疗诊断中,对疾病种类的准确诊断是治愈的关键。提出的基于随机森林算法的甲状腺疾病分类方法的特点在于引入了主成分分析对甲状腺疾病数据进行降维,弥补了随机森林算法在属性选择方面的不足。能够进行较为完整的分类,分类准确度能够满足预期需求。 
(4)由于一种类型的疾病常会同时出现其他病症。在治疗过程中,也会使用到多种药物进行联合治疗。针对这些问题,本文利用 FP-Growth 关联算法对用药规律进行分析,并在 HANA 上实现了 Apriori 关联规则算法对甲状腺疾病并发症的研究。  
.........
参考文献(略)




本文编号:61251

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/lwfw/61251.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a2843***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com