异构健康大数据诊疗模型的特征优化算法研究与开发

发布时间：2022-01-25 15:03

　　健康大数据时代的来临,极大的推动了医疗诊断模型的建立,实现了更快更好更准确的精准医疗,但同时给机器学习和数据挖掘研究人员带来了运算时间和学习效率的新挑战。医学领域生物标志物检测问题等同于机器学习领域中的特征选择问题。健康大数据挖掘是大数据挖掘技术的重要研究方向,是计算机领域和医学领域的研究热点。生物医学数据固有“大p小n”、特征高度相关以及医学研究员对于数据挖掘结果的可理解性要求的特点,使得传统的数据挖掘算法难以直接应用于生物健康大数据挖掘任务。所谓“大p小n”就是“高维度小样本”指现有数据集的特征很多而样本非常少,针对这种情况,通常采用特征选择来减少大量与表型无关的生物医学特征,从而减少模型运行的时间,降低模型的时间和空间复杂度,实现稳定的与特定数据集无关的分类或回归模型,提高模型的泛化能力。本文针对上述问题开展了多层次整合建模算法及异构健康大数据的特征融合研究。由于生物组学、影像组学和电子病历数据描述了生物系统的不同时间和空间尺度的状态,具有显著的异构和多模态特点,是医学建模的主要生物医学信息来源。因此,针对三种类别健康大数据开展了特征提取、特征选择、数据融合算法研究,建立了分类和...

【文章来源】：吉林大学吉林省 211工程院校 985工程院校教育部直属院校

【文章页数】：160 页

【学位级别】：博士

【部分图文】：

异构健康数据融合建模的三个层次第三层次针对临床电子病历数据，研究了4种亚型的乳腺癌新辅助化疗问

影像,医学,电子病历,数据

当代高通量组学技术可以从一个样本产生海量数据特征，导致了特征数远于样本数的“大 p 小 n”挑战[59,60]。生物组学 OMIC 数据集中存在大量与表型相关的“噪音特征”，可以采用特征选择算法（或称为标志物检测算法）来特征构建表型优化模型[61]。从生物学角度来说，并不是所有基因都与疾病类相关；从数据分析角度来说，某些数据特征甚至会降低模型性能。本章介绍了医学大数据中的生物组学、影像组学和电子病历组学的健康大。针对生物医学数据存在“大 p 小 n”特点，容易导致过拟合、运算时间过问题，介绍了数据挖掘、特征选择分类、特征选择过程、机器学习算法和常性能评价指标。2.2 医学大数据概述

KNN算法,样本,分类过程,训练集

征值之间不同距离进行分类的一种算法。空间最临近的 K 个样本中，大多数样本通常 K 取值为 20 以内的整数。K 近邻算类的样本，也就是说，KNN 的定类决策类别[87]。 KNN 算法样例，图中绿色圆形是要进形是已经归类的样本。当前任务是决策绿，与绿色样本邻近的三个样本中有两个赋予红色三角的类；当 K=5 时，与绿色和三个蓝色样本，则绿色圆被赋予蓝色方大程度上取决于 K 值的选择。KNN 算法离或曼哈顿距离。KNN 算法这种通过计相似指标，避免了对象之间的匹配问题。

【参考文献】：
期刊论文
[1]基于回归分析的全体与类样本分类器的比较研究[J]. 张楠,杨健. 计算机应用与软件. 2011(11)

本文编号：3608749

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3608749.html

上一篇：基于周易八卦原理的图像加密算法研究
下一篇：计算机模拟方法研究生物大分子折叠机制

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|