当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于多目标优化的特征选择方法研究及其在高血压预测中的应用

发布时间:2020-05-08 10:11
【摘要】:随着老龄化时代的提前到来,老年人的健康问题引起了社会越来越多的关注,其中高血压等非传染性疾病已经成为威胁老年人健康的首要原因。为了降低老龄人口中高血压的发病率,近年来高血压的影响因素被广泛研究。临床医学和公共卫生领域拥有着各种各样与高血压问题相关的数据,以往对高血压影响因素的研究大部分是借用传统统计学方法,然而随着大数据时代的来临,传统统计学方法在高维数据建模中存在着较多的局限性;与此同时,机器学习算法开始兴起,随机森林等算法在各个领域中被广泛应用,但机器学习面对高维数据建模时也存在着一些困难,因而大量的特征选择方法由此诞生。特征选择常常被看作高维数据的必备武器,如何设计更好的特征选择方案以更好的处理高维数据问题值得探索。在这样的背景下,本研究提出了基于多目标优化的组合式特征选择方法。通常在组合式特征选择方法研究中,第一阶段特征选择数目的确定是人为设置的。本研究试图引入一个权衡指标,综合考虑特征选择法的稳定性和机器学习算法的拟合性能,给出第一阶段特征选择数目的筛选标准;第二阶段,多目标遗传算法利用第一阶段提供的特征子集作为初始种群,进一步进行特征选择,并同时优化特征子集的数目和机器学习算法的拟合性能。我们结合中国健康与养老追踪调查数据做实证分析,以预测高血压的社会影响因素为目标,验证基于多目标优化的组合式特征选择法的有效性以及引入权衡指标的合理性。实验运用四种不同的特征选择方法分别与多目标遗传算法组合,建立四种基于多目标优化的组合式特征选择方案。实验主要表明,组合式特征选择法比仅使用单一的特征选择法效果更好,即预测误差更小、特征子集的数目更少;验证了基于多目标优化的组合式特征选择方法的有效性以及第一阶段中引入权衡指标有一定的科学性及合理性。我们相信,组合式特征选择方法中权衡指标的引入,可以为今后组合式特征选择领域的研究提供一点探索思路。此外,该方法不仅能在预测高血压影响因素中使用,也可以在其他实际应用领域做出更多的尝试。
【图文】:

特征选择,过程流程图,机器学习算法,特征子集


15图2-1 特征选择过程流程图2.2.2 特征子集评价函数与机器学习算法的关系特征子集的评价是根据特征评价函数判断特征子集的重要程度。特征评价函数和机器学习算法无关的,称为独立评价函数。特征评价函数依赖于机器学习算法的,称为非独立评价函数。特征选择按照特征子集评价函数与机器学习算法的关系划分,大致可以分为两类:过滤式、封装式。如图2-2所示,过滤式特征选择方法完全独立于机器学习算法,使用独立评价函数,通过改变评价函数得到不同的过滤式方法。比如关联度、信息增益等,该方法速度快并且易于理解,但由于其独立于机器学习算法,导致选择的特征子集运用到具体的机器学习算法中时,模型表现欠佳。封装式特征选择方法与机器学习算法相互结合

流程图,过滤式,特征选择,流程图


称为非独立评价函数。特征选择按照特征子集评价函数与机器学习算法的关系划分,大致可以分为两类:过滤式、封装式。如图2-2所示,,过滤式特征选择方法完全独立于机器学习算法,使用独立评价函数,通过改变评价函数得到不同的过滤式方法。比如关联度、信息增益等,该方法速度快并且易于理解,但由于其独立于机器学习算法,导致选择的特征子集运用到具体的机器学习算法中时,模型表现欠佳。封装式特征选择方法与机器学习算法相互结合,该方法通过机器学习算法建立模型并以模型的精准度作为评价函数,因而预测精度较高。由图2-3可以看到,特征子集的评价函数与机器学习算法的性能密切相关
【学位授予单位】:成都理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R544.1;TP18

【相似文献】

相关期刊论文 前10条

1 李光华;李俊清;张亮;辛衍森;邓华伟;;一种融合蚁群算法和随机森林的特征选择方法[J];计算机科学;2019年S2期

2 赵玮;;采用机器学习的聚类模型特征选择方法比较[J];华侨大学学报(自然科学版);2017年01期

3 严菲;王晓栋;;基于局部判别约束的半监督特征选择方法[J];模式识别与人工智能;2017年01期

4 张玉红;周全;胡学钢;;面向跨领域情感分类的特征选择方法[J];模式识别与人工智能;2013年11期

5 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期

6 孙霞;郑庆华;;一种面向非平衡数据的邻居词特征选择方法[J];小型微型计算机系统;2008年12期

7 龚静;曾建一;;文本聚类中的特征选择方法[J];吉首大学学报(自然科学版);2008年02期

8 王欣欣;;混合自适应引力搜索优化的特征选择方法[J];计算机工程与应用;2017年12期

9 戴建国;;一种新的有监督特征选择方法[J];陕西理工大学学报(自然科学版);2017年04期

10 徐璐;李雄伟;张阳;王晓晗;桂伟龙;;基于概率分布的硬件木马检测特征选择方法[J];火力与指挥控制;2017年09期

相关会议论文 前10条

1 李高明;易东;;基因表达谱高维大数据的特征选择方法应用策略[A];2017年中国卫生统计学学术年会论文集[C];2017年

2 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年

3 唐凤珍;Lukas Adam;斯白露;;基于多类别支持向量机的组特征选择方法[A];第四届全国神经动力学学术会议摘要集[C];2018年

4 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年

6 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年

7 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

9 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

10 陈鑫;梁海洁;廖腾峰;;基于TSVM分类器和混合型特征选择方法的入侵检测研究[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

相关博士学位论文 前10条

1 陈琳琳;基于核对齐的若干学习问题研究[D];华北电力大学(北京);2019年

2 潘吴斌;加密流量精细化分类技术研究[D];东南大学;2018年

3 郑月锋;面向结构化数据的启发式混合特征选择方法研究[D];吉林大学;2019年

4 杜利敏;面向不平衡数据的特征选择与半监督分类算法研究[D];西南交通大学;2017年

5 吴越;面向网站无障碍检测的组稀疏特征选择方法的研究及应用[D];浙江大学;2018年

6 边婧;不平衡网络异常数据代价敏感特征及实例选择[D];太原理工大学;2016年

7 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年

8 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年

9 尹留志;关于非平衡数据特征问题的研究[D];中国科学技术大学;2014年

10 张逸石;基于冗余—互补散度及特征包络前沿的数据驱动特征选择方法研究[D];华中科技大学;2016年

相关硕士学位论文 前10条

1 王化明;人机交互数据中的多粒度碎片化知识获取技术研究[D];重庆邮电大学;2019年

2 李星星;基于交互信息的多标记类标特异性特征选择方法的研究[D];江西科技师范大学;2018年

3 王秋程;银行信用卡违约预测问题中的特征选择方法研究[D];成都理工大学;2019年

4 冯镇业;联合低秩约束和图嵌入的特征选择方法研究[D];广东工业大学;2019年

5 韩琴;基于多目标优化的特征选择方法研究及其在高血压预测中的应用[D];成都理工大学;2019年

6 庄开元;基于蜻蜓算法和花朵授粉算法的特征选择方法研究[D];吉林大学;2019年

7 王咪;面向脑网络的特征选择方法研究及应用[D];安徽师范大学;2019年

8 郑金格;基于改进蜻蜓算法的生物医学数据特征选择方法研究[D];河南大学;2019年

9 刘阳;风险用户识别中的高维不平衡数据分类研究[D];山西大学;2019年

10 刘冰;局部特征词选择方法及其在文本分类中的应用[D];山西大学;2019年



本文编号:2654519

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2654519.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1871d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com