基于机器学习算法的医疗数据处理与分析
发布时间:2021-03-03 04:47
随着医疗信息系统的不断优化进步,各个医疗单位都积攒了大量的信息。这些数据包括体检数据,临床上的电子病历,医学影像等等,还有各个医疗单位的数据,比如医保数据等。这些数据实际上蕴含着巨大的应用价值和商业价值。本论文分别基于从医疗数据机构获取的体检数据和医保数据,针对不同数据的特点设计了不同的算法方案,进行了预测分析与研究。本文主要做了以下工作:1.针对医院提供的体检数据和诊断数据的特点,对数据进行预处理,包括数据的清理,集成,转换和数据简化。对于特征矩阵中大量缺失的数据值,提出了使用矩阵填充的方法填充缺失的数据,生成新的数据集用于预测。实验结果表明,通过提出的矩阵填充方法,能够有效提升脂肪肝疾病预测的预测模型准确率。2.研究并提出了两种疾病的预测算法。对于诊断数据中患病人数最多的淋巴细胞增生,提出了基于决策树算法的训练预测模型,并且达到了 98.20%的准确率。论文对脂肪肝疾病也进行了预测,通过数据简化后的数据集并采用基于逻辑回归的算法预测,准确率为87.75%。通过分析了数据集的特点并对原始数据集进行一系列的优化处理,包括降维,特征选择,剔除缺失严重的数据,缺失值填充等,将预测准确率提升...
【文章来源】:厦门大学福建省 211工程院校 985工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
原始的体检数据表和诊断数据表
为了更好的用图示表示出矩阵填充的效果,先使用-个较小的数据集来实验。??本实验先产生一个10x10的随机数组,并且用mask去取模,只保留矩阵的大约??40%的数据,得到的矩阵A和mask如图3-4所示??25??
?-2?0?2?4?6?8?10??图3-6矩阵A和mask填充前后的图像??将这些数据前后的结果画成图像如图3-6所示。图3-6中左上角为原来缺失??的矩阵,右上角为补充之后的矩阵,下面的是mask在填充前后的情况。??针对本文用到的数据集,由于数据量太大,这里截取出部分的填充效果如图??3-7所示。??0?1?2?3?4?5?6?7??〇?1.560?12.000?nan?nan?4.600?29.506?nan?nan??1?1.080?31.600?1.060?33.090?5.100?23.700?1.300?0.700??2?2.830?22.0抑?1.230?27.000?6.500?23.900?2.106?1?.〇0???3?0.760?21.066?0.860?18.000?4.100?21.160?1.100?0.866??0?1?2?3?4?5?6?7??〇?1.560?12.008?1.531?47.667?4.606?29.500?1.878?1.011??1?1.080?31.806?1.060?33.000?5.106?23.7的?1.300?0.70C??2?2.830?22.000?1.230?27.900?6.590?23.900?2.166?1.006??3?0.760?21.008?0.860?18.600?4.1的?21.100?1.100?0.80#崳?图3-7本文实验部分数据填充前后对比??对于那些有很多缺失数据的数据集
【参考文献】:
期刊论文
[1]决策树算法的研究综述[J]. 田欣. 现代营销(下旬刊). 2017(01)
[2]粗决策树动态规则提取算法研究及应用[J]. 陈丽芳,王云,张奉. 计算机应用. 2015(11)
[3]基于关联规则Apriori算法改进[J]. 邹金萍,高俊. 信息通信. 2015(06)
[4]决策树在诊断疾病中的应用[J]. 张晓慧. 蛇志. 2014(01)
[5]大数据时代中如何进行医疗数据挖掘与利用[J]. 吴汉华. 硅谷. 2014(05)
[6]支持向量机理论发展与应用综述[J]. 邵福波,董玉林,胡运红. 泰山学院学报. 2013(06)
[7]决策树模型在住院2型糖尿病患者死因预测中的应用[J]. 马瑾,孙颖,刘尚辉. 中国卫生统计. 2013(03)
[8]贝叶斯网络在医学领域中的应用研究[J]. 张月,黄钢,章小雷,田理政,曾词正. 中国医学创新. 2013(04)
[9]Logistic回归模型在医学上的一个应用[J]. 董永权,徐付霞. 数学的实践与认识. 2012(21)
[10]基于矩阵填充的小波图像压缩算法[J]. 郭慧杰,赵保军. 系统工程与电子技术. 2012(09)
硕士论文
[1]矩阵填充理论方法分析[D]. 马晓慧.浙江大学 2012
[2]人类基因组碱基组成的统计研究[D]. 李秋平.兰州大学 2008
本文编号:3060634
【文章来源】:厦门大学福建省 211工程院校 985工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
原始的体检数据表和诊断数据表
为了更好的用图示表示出矩阵填充的效果,先使用-个较小的数据集来实验。??本实验先产生一个10x10的随机数组,并且用mask去取模,只保留矩阵的大约??40%的数据,得到的矩阵A和mask如图3-4所示??25??
?-2?0?2?4?6?8?10??图3-6矩阵A和mask填充前后的图像??将这些数据前后的结果画成图像如图3-6所示。图3-6中左上角为原来缺失??的矩阵,右上角为补充之后的矩阵,下面的是mask在填充前后的情况。??针对本文用到的数据集,由于数据量太大,这里截取出部分的填充效果如图??3-7所示。??0?1?2?3?4?5?6?7??〇?1.560?12.000?nan?nan?4.600?29.506?nan?nan??1?1.080?31.600?1.060?33.090?5.100?23.700?1.300?0.700??2?2.830?22.0抑?1.230?27.000?6.500?23.900?2.106?1?.〇0???3?0.760?21.066?0.860?18.000?4.100?21.160?1.100?0.866??0?1?2?3?4?5?6?7??〇?1.560?12.008?1.531?47.667?4.606?29.500?1.878?1.011??1?1.080?31.806?1.060?33.000?5.106?23.7的?1.300?0.70C??2?2.830?22.000?1.230?27.900?6.590?23.900?2.166?1.006??3?0.760?21.008?0.860?18.600?4.1的?21.100?1.100?0.80#崳?图3-7本文实验部分数据填充前后对比??对于那些有很多缺失数据的数据集
【参考文献】:
期刊论文
[1]决策树算法的研究综述[J]. 田欣. 现代营销(下旬刊). 2017(01)
[2]粗决策树动态规则提取算法研究及应用[J]. 陈丽芳,王云,张奉. 计算机应用. 2015(11)
[3]基于关联规则Apriori算法改进[J]. 邹金萍,高俊. 信息通信. 2015(06)
[4]决策树在诊断疾病中的应用[J]. 张晓慧. 蛇志. 2014(01)
[5]大数据时代中如何进行医疗数据挖掘与利用[J]. 吴汉华. 硅谷. 2014(05)
[6]支持向量机理论发展与应用综述[J]. 邵福波,董玉林,胡运红. 泰山学院学报. 2013(06)
[7]决策树模型在住院2型糖尿病患者死因预测中的应用[J]. 马瑾,孙颖,刘尚辉. 中国卫生统计. 2013(03)
[8]贝叶斯网络在医学领域中的应用研究[J]. 张月,黄钢,章小雷,田理政,曾词正. 中国医学创新. 2013(04)
[9]Logistic回归模型在医学上的一个应用[J]. 董永权,徐付霞. 数学的实践与认识. 2012(21)
[10]基于矩阵填充的小波图像压缩算法[J]. 郭慧杰,赵保军. 系统工程与电子技术. 2012(09)
硕士论文
[1]矩阵填充理论方法分析[D]. 马晓慧.浙江大学 2012
[2]人类基因组碱基组成的统计研究[D]. 李秋平.兰州大学 2008
本文编号:3060634
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3060634.html