数据挖掘在体检人群代谢综合征智能甄别中的应用研究
发布时间:2021-11-15 15:12
目的:数据挖掘技术在医学中的应用日益广泛,但也面临诸多问题,其中数据冗余及类不平衡分类问题是数据挖掘领域承待解决的问题。本研究基于健康体检大数据,以代谢综合征智能甄别(分类)为切入点,探讨与分析Lasso特征选择与重采样技术在医学领域数据冗余及类不平衡数据分类中的可行性与应用价值。方法:数据来源于乌鲁木齐市某体检机构20142016年体检者信息共69267例,以代谢综合征为结果分类指标,诸多体检指标为预测分类指标,代谢综合征与非代谢综合征人群不平衡比例为1:24,以数据挖掘中常用的两种分类方法(C4.5决策树、BP神经网络)为智能分类方法,选用F-value、G-mean及AUC作为分类性能的评价指标,将Lasso特征选择与三种重采样技术(随机过采样、随机欠采样、混合采样)应用于体检代谢综合征分类研究中,通过对比分类性能的差异与分类结果的稳定性,评价Lasso特征选择与重采样技术在医学数据冗余及类不平衡数据分类中的应用可行性。结果:(1)相比原始体检数据,运用Lasso特征选择有效降低体检数据冗余并提高分类性能,体检变量由53个缩减至5个,分别是:葡萄糖测定、高密...
【文章来源】:新疆医科大学新疆维吾尔自治区
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
BP神经网络的拓扑结构图
断共有2735例体检者患有代谢综合征,患病率为3.95%,数据集不平衡比例为24.33。1 Lasso 特征选择在智能甄别中的应用以体检代谢综合征分类为例,对体检代谢综合征数据采用 Lasso 特征选择。采用表 1 中的体检变量(身高、体重除外)及 BMI 作为 Lasso 特征选择的自变量,以是否患有代谢综合征作因变量,从体检数据中筛选出与代谢综合征强相关的体检变量通过 C4.5 决策树、BP 神经网络两种流行的分类算法,智能甄别体检中的代谢综合征患者,探讨是否运用 Lasso 特征选择对分类代谢综合征性能的影响。Lasso 特征选择后生成的数据特征序列见图 2,图中 X 轴表示压缩系数的程度Y 轴表示回归系数的值。从图 2 可看出:各变量系数随横坐标增大逐渐压缩到 0,意味着该变量被模型剔除,从而达到特征选择的目的。经 Lasso 特征选择后,体检变量由 53 个降至 5 个,特征选择后的变量分别是:变量 52、变量 49、变量 6、变量 2、变量 53,对应的体检变量分别是:葡萄糖测定、高密度脂蛋白胆固醇、中心粒细胞百分比、年龄、血小板平均体积。研究结果表明:Lasso 特征选择算法能从体检数据众多的冗余信息中提取与代谢综合征强相关的体检变量,从而达到特征降维的目的。
表 4 C4.5 决策树和 BP 神经网络分类不同不平衡比例数据集Table 4 C4.5 decision tree and BPdecision tree classified datasets with different imbalanced ratio不平衡比例 患病率 F-value G-mean AUCC4.5 决策树1 1/2 0.920 0.920 0.93610 1/11 0.970 0.879 0.92150 1/51 0.993 0.842 0.894100 1/101 0.997 0.840 0.892BP 神经网络1 1/2 0.966 0.966 0.98410 1/11 0.983 0.947 0.96050 1/51 0.994 0.871 0.875100 1/101 0.997 0.847 0.827
【参考文献】:
期刊论文
[1]基于R和Hadoop的大规模数据主成分分析[J]. 毛志远. 信息技术与信息化. 2017(12)
[2]基于医疗大数据的数据挖掘方法研究[J]. 周政尹. 经贸实践. 2017(23)
[3]基于数据挖掘方法分析中药外用疗法治疗颈肩腰腿痛用药规律[J]. 李佳莘,张耀巍,曹云,杨璐,杨皓月,廉安琪,宋丹,许海霞. 天津中医药. 2017(12)
[4]基于数据挖掘分析酪氨酸蛋白激酶受体TYRO3在膀胱癌中的表达及临床意义[J]. 齐闯,赵虎,陈展,崔强,郭君其,路君. 现代肿瘤医学. 2018(01)
[5]基于数据挖掘的中医治疗风湿病组方规律分析[J]. 张林华,吴嘉瑞,姜迪. 中国医药导报. 2017(33)
[6]基于数据挖掘的针灸治疗血管性痴呆的选穴规律分析[J]. 詹秀菊,刘丽蓉,刘秀峰. 广州中医药大学学报. 2017(06)
[7]基于数据挖掘的治疗支气管哮喘中成药分析[J]. 徐丽丽,李敬华,朱玲,田野,于琦,于彤,孙晓峰,李泽庚. 中成药. 2017(11)
[8]数据挖掘算法对乳腺肿瘤超声图像特征的优化及良恶性分类研究[J]. 孙梅,严传波,张雨,毕雪华. 科技通报. 2017(10)
[9]基于数据挖掘的曹玲仙治疗多囊卵巢综合征用药规律研究[J]. 章浩伟,王子楠,刘颖,孙洋洋. 北京生物医学工程. 2017(05)
[10]数据挖掘在护理领域中的应用进展[J]. 王振容,蒋晓莲. 中华护理杂志. 2017(10)
博士论文
[1]基于半监督和集成学习的不平衡数据特征选择和分类[D]. 房晓南.山东师范大学 2016
[2]计算机辅助医学影像诊断中的关键学习技术研究[D]. 沈晔.浙江大学 2014
硕士论文
[1]Cox模型及变系数Cox模型中的变量选择问题研究[D]. 刘丹.暨南大学 2016
[2]智能穿戴设备数据分析技术的研究与应用[D]. 戴海涛.北方工业大学 2016
[3]综合过采样和欠采样的不平衡数据集的学习研究[D]. 闫欣.东北电力大学 2016
[4]数据挖掘中类不平衡数据集分类模型研究[D]. 刘凯.辽宁科技大学 2014
[5]红细胞参数与代谢综合征及其组分的关联性研究[D]. 吴硕.山东大学 2014
[6]基于混合采样的非平衡数据集分类研究[D]. 欧阳源遊.重庆大学 2014
[7]等距特征映射算法的改进及其应用[D]. 刘爱萍.常州大学 2011
本文编号:3497017
【文章来源】:新疆医科大学新疆维吾尔自治区
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
BP神经网络的拓扑结构图
断共有2735例体检者患有代谢综合征,患病率为3.95%,数据集不平衡比例为24.33。1 Lasso 特征选择在智能甄别中的应用以体检代谢综合征分类为例,对体检代谢综合征数据采用 Lasso 特征选择。采用表 1 中的体检变量(身高、体重除外)及 BMI 作为 Lasso 特征选择的自变量,以是否患有代谢综合征作因变量,从体检数据中筛选出与代谢综合征强相关的体检变量通过 C4.5 决策树、BP 神经网络两种流行的分类算法,智能甄别体检中的代谢综合征患者,探讨是否运用 Lasso 特征选择对分类代谢综合征性能的影响。Lasso 特征选择后生成的数据特征序列见图 2,图中 X 轴表示压缩系数的程度Y 轴表示回归系数的值。从图 2 可看出:各变量系数随横坐标增大逐渐压缩到 0,意味着该变量被模型剔除,从而达到特征选择的目的。经 Lasso 特征选择后,体检变量由 53 个降至 5 个,特征选择后的变量分别是:变量 52、变量 49、变量 6、变量 2、变量 53,对应的体检变量分别是:葡萄糖测定、高密度脂蛋白胆固醇、中心粒细胞百分比、年龄、血小板平均体积。研究结果表明:Lasso 特征选择算法能从体检数据众多的冗余信息中提取与代谢综合征强相关的体检变量,从而达到特征降维的目的。
表 4 C4.5 决策树和 BP 神经网络分类不同不平衡比例数据集Table 4 C4.5 decision tree and BPdecision tree classified datasets with different imbalanced ratio不平衡比例 患病率 F-value G-mean AUCC4.5 决策树1 1/2 0.920 0.920 0.93610 1/11 0.970 0.879 0.92150 1/51 0.993 0.842 0.894100 1/101 0.997 0.840 0.892BP 神经网络1 1/2 0.966 0.966 0.98410 1/11 0.983 0.947 0.96050 1/51 0.994 0.871 0.875100 1/101 0.997 0.847 0.827
【参考文献】:
期刊论文
[1]基于R和Hadoop的大规模数据主成分分析[J]. 毛志远. 信息技术与信息化. 2017(12)
[2]基于医疗大数据的数据挖掘方法研究[J]. 周政尹. 经贸实践. 2017(23)
[3]基于数据挖掘方法分析中药外用疗法治疗颈肩腰腿痛用药规律[J]. 李佳莘,张耀巍,曹云,杨璐,杨皓月,廉安琪,宋丹,许海霞. 天津中医药. 2017(12)
[4]基于数据挖掘分析酪氨酸蛋白激酶受体TYRO3在膀胱癌中的表达及临床意义[J]. 齐闯,赵虎,陈展,崔强,郭君其,路君. 现代肿瘤医学. 2018(01)
[5]基于数据挖掘的中医治疗风湿病组方规律分析[J]. 张林华,吴嘉瑞,姜迪. 中国医药导报. 2017(33)
[6]基于数据挖掘的针灸治疗血管性痴呆的选穴规律分析[J]. 詹秀菊,刘丽蓉,刘秀峰. 广州中医药大学学报. 2017(06)
[7]基于数据挖掘的治疗支气管哮喘中成药分析[J]. 徐丽丽,李敬华,朱玲,田野,于琦,于彤,孙晓峰,李泽庚. 中成药. 2017(11)
[8]数据挖掘算法对乳腺肿瘤超声图像特征的优化及良恶性分类研究[J]. 孙梅,严传波,张雨,毕雪华. 科技通报. 2017(10)
[9]基于数据挖掘的曹玲仙治疗多囊卵巢综合征用药规律研究[J]. 章浩伟,王子楠,刘颖,孙洋洋. 北京生物医学工程. 2017(05)
[10]数据挖掘在护理领域中的应用进展[J]. 王振容,蒋晓莲. 中华护理杂志. 2017(10)
博士论文
[1]基于半监督和集成学习的不平衡数据特征选择和分类[D]. 房晓南.山东师范大学 2016
[2]计算机辅助医学影像诊断中的关键学习技术研究[D]. 沈晔.浙江大学 2014
硕士论文
[1]Cox模型及变系数Cox模型中的变量选择问题研究[D]. 刘丹.暨南大学 2016
[2]智能穿戴设备数据分析技术的研究与应用[D]. 戴海涛.北方工业大学 2016
[3]综合过采样和欠采样的不平衡数据集的学习研究[D]. 闫欣.东北电力大学 2016
[4]数据挖掘中类不平衡数据集分类模型研究[D]. 刘凯.辽宁科技大学 2014
[5]红细胞参数与代谢综合征及其组分的关联性研究[D]. 吴硕.山东大学 2014
[6]基于混合采样的非平衡数据集分类研究[D]. 欧阳源遊.重庆大学 2014
[7]等距特征映射算法的改进及其应用[D]. 刘爱萍.常州大学 2011
本文编号:3497017
本文链接:https://www.wllwen.com/yixuelunwen/nfm/3497017.html
最近更新
教材专著