当前位置:主页 > 医学论文 > 医卫管理论文 >

基于相似性度量的医学数据补缺与分类方法研究

发布时间:2020-10-17 05:24
   随着信息科学技术的发展,医学数据的规模以“爆炸”式的速度发展,海量的数据为健康大数据的产生提供了基础。基于机器学习等方法进行医学数据分析从而实现疾病预测、诊断成为了研究热点。医学数据具有其特有性质:医学数据集中普遍存在关联属性,也常存在缺失数据。这些特性为基于医学数据的分析方法带来全新的挑战。本文面向医学数据研究的实际需求,考虑属性关联性设计了新的相似性度量方法,并基于这种度量方法设计了数据补缺方法及数据分类方法以应对医学数据缺失、进行数据分类,最终实现疾病的辅助诊断。主要内容如下:(1)提出了一种新的相似性度量方法。该方法首先计算数据集中各属性间的相关系数,再利用核函数将其转化为可直接用于计算的权重,最终设计并实现了一种充分考虑数据中属性关联程度的相似性度量方法。(2)提出了一种新的数据补缺算法。该方法以新的相似性度量方法为基础,筛选相似样本,并使用了加权线性回归方法计算数据缺失值。本文选取了K最邻近补缺法、最小二乘补缺法等多种经典数据补缺算法作为对照,在阿尔兹海默病数据集、心律失常数据集等医学数据集上进行对照实验。结果显示本方法在补缺精度上领先其他算法达4.4%~12.2%,且保持了最低的均方根误差。(3)提出了两种改进的数据分类方法。两种方法均基于新的相似性度量方法,分别是对K最邻近分类算法和支持向量机分类算法的改进。同样在医学数据集上进行对照实验,结果表明本文方法在数据分类表现优于支持向量机、C4.5等传统分类方法达2.2%~9.9%。
【学位单位】:合肥工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:R-05;TP181
【部分图文】:

数据集,缺失,变量定义


合肥工业大学硕士学位论文第二章 变量定义及基础知识言章首先对本课题中涉及的数据的结构进行描述,为了更好的解释和说明流程,将对本文中出现的符号进行统一的规范和描述,在接下来的章节中数据结构、变量和符号将会遵循本章的格式。此外,本章将详细介绍本文医学数据集,并对本文中涉及算法的统计方法评价指标进行统一列出。据结构及变量定义

算法流程图,数据,补数,灵活变通


以本问题的求解方式分两种情况:如果 rank( ))=K,此时求出: = [W π SKcT T W π SKcTπ (SKcT)Tπ WT k(Gc(£ §T))<K,此时的最小二乘解由如下公式求出: = = [W π SKcT T W π SKcTπ (SKcT)Tπ WT cTπ (SKcT)T 是 SKcTπ (SKcT)T 的伪逆矩阵,但是当 rank(SK价于 SKcTπ (SKcT)T ,从而获取了线性组合系数 。从而 ij= π W π SKm法完成了对 ij的填补,可对下一个缺失数据进行补缺操作同一待补数据集,每次对缺失值的填补可能会对属性间的关,在大多数情况下,这种影响的效果是微乎其微的,因此本联度的计算只需要进行一次即可。当然,我们也可以选择每据集的属性关联度矩阵进行更新,但这样无疑会增加算法补数据集的实际情况灵活变通。程图

数据集,分类精度,缺失,比例


图 4.2 NACC 数据集在不同缺失比例下补缺算法的分类精度4.2 Classification accuracy of imputation algorithms for NACC data with differenmissing proportions这种有效性同样保持在了土耳其 Bilkent University 心律失常数据集上,在 们提及了该数据集是混合型数据集,而本实验选择将该数据集分成了离散集(数据量为 542*73)和连续型数据集(数据量为 542*263)分别处理,离据集可用数据补缺的分类精度来衡量算法性能,如图 4.3 所示:
【参考文献】

相关期刊论文 前10条

1 朱彦;徐俊;朱玲;崔蒙;;主要发达国家医疗健康大数据政策分析[J];中华医学图书情报杂志;2015年10期

2 乔岩;王伟;;大数据在医疗领域的应用[J];健康管理;2014年07期

3 杨龙频;周林;陈阳阳;杨龙麟;;依托无线物联网技术的实时医疗健康监测系统[J];中国卫生信息管理杂志;2013年06期

4 高明;;基于数据挖掘技术的疾病预防控制评估研究[J];医学信息(上旬刊);2011年03期

5 刘卓;;K-最邻近算法在文本自动分类中的应用[J];苏州市职业大学学报;2010年02期

6 李希强;王笛;陆舍铭;任卓英;董学畅;缪明明;;皮尔逊相关系数与UPLC相结合研究烟用香精香料指纹图谱[J];精细化工;2008年05期

7 左森;郭晓松;万敬;周召发;;多项式核函数SVM快速分类算法[J];计算机工程;2007年06期

8 刘宝生;闫莉萍;周东华;;几种经典相似性度量的比较研究[J];计算机应用研究;2006年11期

9 赵倩,胡越黎,曹家麟;基于支持向量机的皮肤显微图像识别[J];上海大学学报(自然科学版);2005年01期

10 汪辉,皮道映,孙优贤;支持向量机在线训练算法及其应用[J];浙江大学学报(工学版);2004年12期


相关博士学位论文 前1条

1 姚卫新;智能数据分析中异常数据的集成化管理方法研究[D];复旦大学;2004年


相关硕士学位论文 前3条

1 杨亚超;基于SVM和结构性MRI数据的AD病程分类研究[D];山西医科大学;2016年

2 严德春;基因微阵列数据的分析算法[D];苏州大学;2012年

3 程晓兰;决策树分类算法及其应用[D];大连交通大学;2008年



本文编号:2844342

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2844342.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f7d4f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com