基于相似性度量的医学数据补缺与分类方法研究
【学位单位】:合肥工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:R-05;TP181
【部分图文】:
合肥工业大学硕士学位论文第二章 变量定义及基础知识言章首先对本课题中涉及的数据的结构进行描述,为了更好的解释和说明流程,将对本文中出现的符号进行统一的规范和描述,在接下来的章节中数据结构、变量和符号将会遵循本章的格式。此外,本章将详细介绍本文医学数据集,并对本文中涉及算法的统计方法评价指标进行统一列出。据结构及变量定义
以本问题的求解方式分两种情况:如果 rank( ))=K,此时求出: = [W π SKcT T W π SKcTπ (SKcT)Tπ WT k(Gc(£ §T))<K,此时的最小二乘解由如下公式求出: = = [W π SKcT T W π SKcTπ (SKcT)Tπ WT cTπ (SKcT)T 是 SKcTπ (SKcT)T 的伪逆矩阵,但是当 rank(SK价于 SKcTπ (SKcT)T ,从而获取了线性组合系数 。从而 ij= π W π SKm法完成了对 ij的填补,可对下一个缺失数据进行补缺操作同一待补数据集,每次对缺失值的填补可能会对属性间的关,在大多数情况下,这种影响的效果是微乎其微的,因此本联度的计算只需要进行一次即可。当然,我们也可以选择每据集的属性关联度矩阵进行更新,但这样无疑会增加算法补数据集的实际情况灵活变通。程图
图 4.2 NACC 数据集在不同缺失比例下补缺算法的分类精度4.2 Classification accuracy of imputation algorithms for NACC data with differenmissing proportions这种有效性同样保持在了土耳其 Bilkent University 心律失常数据集上,在 们提及了该数据集是混合型数据集,而本实验选择将该数据集分成了离散集(数据量为 542*73)和连续型数据集(数据量为 542*263)分别处理,离据集可用数据补缺的分类精度来衡量算法性能,如图 4.3 所示:
【参考文献】
相关期刊论文 前10条
1 朱彦;徐俊;朱玲;崔蒙;;主要发达国家医疗健康大数据政策分析[J];中华医学图书情报杂志;2015年10期
2 乔岩;王伟;;大数据在医疗领域的应用[J];健康管理;2014年07期
3 杨龙频;周林;陈阳阳;杨龙麟;;依托无线物联网技术的实时医疗健康监测系统[J];中国卫生信息管理杂志;2013年06期
4 高明;;基于数据挖掘技术的疾病预防控制评估研究[J];医学信息(上旬刊);2011年03期
5 刘卓;;K-最邻近算法在文本自动分类中的应用[J];苏州市职业大学学报;2010年02期
6 李希强;王笛;陆舍铭;任卓英;董学畅;缪明明;;皮尔逊相关系数与UPLC相结合研究烟用香精香料指纹图谱[J];精细化工;2008年05期
7 左森;郭晓松;万敬;周召发;;多项式核函数SVM快速分类算法[J];计算机工程;2007年06期
8 刘宝生;闫莉萍;周东华;;几种经典相似性度量的比较研究[J];计算机应用研究;2006年11期
9 赵倩,胡越黎,曹家麟;基于支持向量机的皮肤显微图像识别[J];上海大学学报(自然科学版);2005年01期
10 汪辉,皮道映,孙优贤;支持向量机在线训练算法及其应用[J];浙江大学学报(工学版);2004年12期
相关博士学位论文 前1条
1 姚卫新;智能数据分析中异常数据的集成化管理方法研究[D];复旦大学;2004年
相关硕士学位论文 前3条
1 杨亚超;基于SVM和结构性MRI数据的AD病程分类研究[D];山西医科大学;2016年
2 严德春;基因微阵列数据的分析算法[D];苏州大学;2012年
3 程晓兰;决策树分类算法及其应用[D];大连交通大学;2008年
本文编号:2844342
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2844342.html