AP聚类算法研究及其在电子病历挖掘中的应用
本文关键词:AP聚类算法研究及其在电子病历挖掘中的应用
更多相关文章: 聚类算法 AP聚类 基于代表点的聚类 电子病历 数据挖掘
【摘要】:大数据时代,如何从数据中获取知识是一个非常重要的研究课题,数据挖掘和知识发现是从数据处理到决策支持的关键步骤。基于代表点的聚类是一种有效的无监督学习方式,它可以从不含类别标签的数据中提取知识,目前已经在客户细分、社区发现、异常消费行为检测、设施选址、医疗临床路径抽取等问题中展现出了巨大的应用价值。AP聚类是近年来提出的一种基于代表点的聚类算法,其在绝大多数数据集上都可以得到比传统聚类算法更优的聚类结果,并且在聚类过程中,无需人为设定初始代表点集合,簇的数量等等。AP聚类自提出以来,就受到了人们的青睐,目前已经在商务智能和数据挖掘中扮演了重要的角色。然而,在最近几年,数据科学得到了飞速的发展,新的数据形式层出不穷,新的数据问题不断涌现。例如电子病历数据,具有显著的动态性、多元异构性、大规模性等特征;而对电子病历的数据挖掘也从浅层问题进入深层问题,在建模分析过程中,需要考虑的因素更多,需要利用的信息更全面。标准AP聚类受到了前所未有的挑战:1)标准AP聚类只能处理静态数据,但是动态数据所占的比重却在逐年上升;2)标准AP聚类只能发现球形簇,但是随着数据形式的多样化,数据对象的分布结构正在变得越来越复杂;3)标准AP聚类算法复杂度相对较高,不适用于大规模数据聚类问题,但是在各行各业中,数据的规模正在呈指数增长。针对以上三个问题,本文分别给出了解决方案,并提出了适用于动态数据环境的增量式AP聚类,可以发现复杂形状簇的任意形状簇AP聚类,以及可以用于处理大规模数据聚类问题的快速AP聚类。本文还将以上三种聚类算法用于电子病历数据挖掘,从大量治疗记录中提取典型治疗方案,融合电子病历包含的多源信息实现治疗方案的个性化推荐。论文的主要研究工作如下:1.增量式AP聚类。分析了增量式AP聚类问题中存在的难点,并提出了两种解决方案。在此基础上,提出了两种增量式AP聚类算法:基于K中心的增式AP聚类和基于近邻赋值的增量式AP聚类。不仅从理论上分析了两种增量式AP聚类算法的合理性,还通过在真实数据集合上的计算实验验证了两种增量式AP聚类算法的有效性。2.任意形状簇AP聚类。通过对现有的两大类任意形状簇聚类算法的分析指出了局域相似度在任意形状簇聚类问题中的重要性,并讨论了从特征相似度到类别相似度转化的一般化方法。根据在类别相似度矩阵上的消息传递,提出了任意形状簇AP聚类算法。在人造数据集和真实数据集上的计算实验均表明本文所提方法可以有效发现具有复杂形状的簇。3.快速AP聚类。提出了两阶段式快速AP聚类算法。该算法首先通过选择潜在代表数据对象对因子图进行压缩,然后通过去掉不必要的消息传递对因子图进行稀疏化。最后通过在不完全因子图上的消息传递,实现对所有数据对象的聚类。计算实验表明,本文所提出的快速AP聚类算法可以在保持标准AP聚类优良的聚类性能的同时,大幅度地提高AP聚类算法的效率。4.典型治疗方案发现与推荐。首先根据电子病历中的人口统计学信息和诊断信息对病人进行聚类,以发现特定的病人群落;然后通过对药品联合使用网络划分,发现药品之间的联合使用关系;接着对电子病历中的治疗记录进行聚类,并根据聚类结果提取典型治疗方案;最后通过匹配病人群落和治疗记录的聚类结果,为指定的病人群落找到最佳的治疗方案。本研究具有重要的理论意义和应用价值:1)通过对标准AP聚类的拓展,使其具备有效分析和处理新型数据的能力,为数据科学的发展提供了新的工具;2)对标准AP聚类的改进和提升涉及到许多聚类领域中的经典问题,本文的解决思路对其他聚类算法的改进和设计同样具有启发作用;3)从大量治疗记录中提取得到的典型治疗方案,可以为医生设计和改进治疗方案提供素材;融合电子病历各部分数据的治疗方案个性化推荐,可以为医生的临床决策提供数据支持。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:R197.323;TP311.13
【相似文献】
中国期刊全文数据库 前1条
1 付伟忠;张运陶;;改进的MC_GEP算法与嘌呤骨架类Hsp90抗癌活性的定量结构活性关系研究[J];计算机与应用化学;2010年05期
中国重要会议论文全文数据库 前10条
1 黄纪武;毛泽华;李松涛;张锦雄;;SPMD并行查找算法的MPI实现[A];广西计算机学会——2004年学术年会论文集[C];2004年
2 黄纪武;毛泽华;李松涛;张锦雄;;SPMD并行查找算法的MPI实现[A];广西计算机学会2004年学术年会论文集[C];2004年
3 符丽锦;覃华;邓海;孙欣;;一种改进的Apriori算法的研究[A];广西计算机学会2012年学术年会论文集[C];2012年
4 王东锋;王军民;陈英武;;模糊定性仿真理论研究与算法实现[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年
5 赵唯;;晶粒度评级的改进算法[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
6 刘启文;;可扩展的图形学算法演示系统的研究[A];’2004计算机应用技术交流会议论文集[C];2004年
7 佘智;蒋泰;朱延生;;基于Type C协议的防冲突改进算法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
8 朱绍文;赵培;朱秋云;;基于pSPADE并行挖掘序列算法的研究[A];2003年中国智能自动化会议论文集(下册)[C];2003年
9 杨霞;;新的基于启发式蚁群算法的QoS路由算法[A];广西计算机学会2009年年会论文集[C];2009年
10 陈黎飞;姜青山;董槐林;;基于图形轮廓的快速聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 钟永腾;基于近场MUSIC算法的复合材料结构健康监测研究[D];南京航空航天大学;2014年
2 刘燕;入侵杂草优化算法在阵列天线综合中的应用[D];西安电子科技大学;2015年
3 苗义烽;突发事件下的列车运行调度模型与算法研究[D];中国铁道科学研究院;2015年
4 杨玉婷;头脑风暴优化算法与基于视频的非接触式运动定量分析方法研究[D];浙江大学;2015年
5 刘杰;全局优化问题的几类新算法[D];西安电子科技大学;2015年
6 柏静;基于多种混合策略的人工蜂群算法改进研究[D];山东师范大学;2016年
7 孔翔宇;几类优化问题的人工蜂群算法[D];西安电子科技大学;2016年
8 匡立;分形网络的理论、算法及应用研究[D];武汉大学;2015年
9 孙磊磊;AP聚类算法研究及其在电子病历挖掘中的应用[D];大连理工大学;2017年
10 单美静;求解非线性实代数系统的混合算法研究[D];华东师范大学;2008年
中国硕士学位论文全文数据库 前10条
1 安世勇;命题逻辑中随机3-SAT问题算法研究[D];西南交通大学;2015年
2 毕晓庆;油气探矿权竞争性出让系统设计与实现[D];中国地质大学(北京);2015年
3 王明明;铁路大机与线路固定设施间距检测算法研究[D];西南交通大学;2015年
4 李静;基于视频图像序列的运动目标检测与跟踪算法研究[D];宁夏大学;2015年
5 刘贝玲;基于天地图的租房平台开发及其关键技术研究[D];西南交通大学;2015年
6 曹海锋;IDS中串匹配臭算法并行优化研究[D];西安建筑科技大学;2015年
7 周攀;基于蚁群算法的山区高速铁路隧道火灾应急疏散最优路径研究[D];西南交通大学;2015年
8 张路奇;基于改进蚁群算法的WSN路由协议的研究[D];中国地质大学(北京);2015年
9 王晓晨;入侵杂草优化算法的应用与改进[D];长安大学;2015年
10 信琴琴;手势控制和识别算法研究[D];闽南师范大学;2015年
,本文编号:1257997
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1257997.html