当前位置:主页 > 医学论文 > 精神病论文 >

基于代价敏感的特征选择算法研究及应用

发布时间:2020-05-15 06:23
【摘要】:在疾病数据的处理过程中,特征选择是一个非常重要的前置步骤。但疾病数据集通常具有样本量小、特征维度高、类别不平衡、没有区分疾病亚型等特点。常用的特征选择算法因为没有考虑到这些特点带来的问题,从而导致在处理这些数据时,会忽略掉一些有用的特征。因此,本文围绕上述问题,展开了如下研究:1、在理论层面,为解决常用算法中基于统计的评价指标不适应疾病数据特点的问题,提出了一种基于代价敏感的、针对疾病数据特点的过滤式特征选择算法,并在公开数据集上与其它常用算法进行了对比测试。结果显示,该算法选出的特征能有效提升分类器表现,并能在一定程度上避免选入冗余特征。2、在应用层面,为在语音中找到能够用于识别抑郁症的关键特征,将本文提出的特征选择算法应于基于语音的抑郁症识别研究中。根据特征选择结果,得出了抑郁症患者在语音上具有迟缓、沙哑等特点的结论。进一步分析发现,在不同任务中,语音特征上的差异也各不相同。得出了在访谈、朗读这两类任务中采集的语音能更有效地区分抑郁症的结论。3、基于上述工作,将选择出的特征与不同任务下的语音纳入综合考虑,并以此构建了一个通过语音识别抑郁症的模型。该模型在一期实验范式的男性、女性样本集上分别达到了80.7%、74.7%的分类正确率,在二期实验范式的男性、女性样本集上分别达到了66.7%、67.8%的分类正确率。综上所述,本文工作主要聚焦于特征选择算法设计,提出了一种基于代价敏感的、针对疾病数据特点的特征选择算法。然后将该算法应用于基于语音的抑郁症识别研究,在对实验采集的数据进行了特征选择和分析后,将语音也看作特征的一个维度,与其余特征组合在一起,构建了一个新的抑郁症识别模型。
【图文】:

序列,特征选择


图 1-1 特征选择的基本框架如图 1-1 所示,目前的特征选择算法是一套包含了多种方法与策略的框架,其中包含了特征评价指标、特征搜索过程、搜索停止准则、验证评估方法等多个内容[30]。一般的特征选择所需步骤如下所述:1、首先,使用特征评价指标对单个特征或特征子集的有效性进行评价。在这一步骤中,用到的评价指标计算方式有:方差分析、互信息、卡方检验、分类器的分类正确率等。按照评价指标的原理和作用范围,可将特征选择方法分为过滤式(Filter)、包裹式(Wrapper)、嵌入式(Embedded)等。2、然后,基于评价指标制定一定的搜索策略,寻找最优的特征子集,在这一部分中根据其搜索方法又可以分为穷举、启发式增删、随机选择等策略。例如穷举搜索中的广度优先搜索、深度优先搜索,以及启发式搜索中的序列前向搜索、序列后向搜索、遗传算法等。3、搜索停止准则是在搜索过程中,根据一定的指标停止搜索过程。例如选择的特征数目达到指定数目、特征评价指标达到指定阈值等。

集成学习


兰州大学硕士学位论文 基于代价敏感的特征选择算法研究及应用要么陷入局部最优导致过拟合,要么无法进行有效寻优导致在验证集和测试集上分类正确率很低。要在单个模型上同时解决这两个问题是非常困难的。因此,可以考虑退而求其次,通过划分数据,用各个部分的数据子集所包含的信息去训练多个模型[41]。一个很可能的结果是,每一个模型都拥有各自的优缺点,且因为每一个模型所用的训练数据各不相同,它们的优点之间是可以互相弥补的。然后,根据一定的融合策略,如加权、投票等,将每个模型组合在一起,得到最终的模型。其基本框架如图 2-1 所示所示。在这过程中,每一个分类器被称为基学习器。基学习器在一定集成提升策略下,,共同构成一个集成学习模型。
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP181;R749.4

【相似文献】

相关期刊论文 前10条

1 吴中华;郑玮;;基于?_(2,1)范数的在线流特征选择算法[J];计算机与数字工程;2019年06期

2 代琨;于宏毅;马学刚;李青;;基于支持向量机的特征选择算法综述[J];信息工程大学学报;2014年01期

3 陈建华;王治和;蒋芸;许虎寅;樊东辉;;一种改进的文本分类特征选择算法[J];微电子学与计算机;2011年12期

4 张文静;王备战;张志宏;;基于图的特征选择算法综述[J];安徽大学学报(自然科学版);2017年01期

5 孙刚;张靖;;面向高维微阵列数据的集成特征选择算法[J];计算机工程与科学;2016年07期

6 张自敏;;大数据中基于稀疏投影的在线特征选择算法[J];湖南科技大学学报(自然科学版);2018年03期

7 陈晓明;;海量高维数据下分布式特征选择算法的研究与应用[J];科技通报;2013年08期

8 李富星;蒙祖强;;一种改进的类别区分词特征选择算法[J];计算机与现代化;2019年03期

9 刘飞飞;;特征选择算法及应用综述[J];办公自动化;2018年21期

10 侯屿;秦小林;彭皓月;张力戈;;全局调距和声特征选择算法[J];计算机工程与应用;2019年02期

相关会议论文 前10条

1 甄超;郑涛;许洁萍;;音乐流派分类中特征选择算法研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年

2 陈伟海;李建军;赵志华;曹丹阳;李晋宏;;数据挖掘特征选择算法研究及其在铝电解中的应用[A];2011中国有色金属行业仪表自动化学术会议论文集[C];2011年

3 张仰森;曹元大;;最大熵建模方法中一种改进的特征选择算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

4 张铮;胡社教;江萍;;基于EP模式的特征选择算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年

5 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年

6 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

7 李文法;段m#毅;刘悦;孙春来;;一种面向流分类的特征选择算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 戴键;杨宏晖;;用于水声目标识别的自适应免疫克隆特征选择算法[A];2011'中国西部声学学术交流会论文集[C];2011年

9 杨宏晖;李江涛;甘安琴;姚晓辉;;用于水下目标识别的无监督谱特征选择算法[A];2016年中国造船工程学会水中目标特性学组学术交流会论文集[C];2016年

10 罗勇;周超;许超;;文本分类在商品广告分类中的应用[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年

相关博士学位论文 前10条

1 田肃岩;吸纳通路信息识别相关基因的特征选择算法的研究[D];吉林大学;2018年

2 黄鑫;基于特征关联关系的特征选择算法研究[D];大连理工大学;2018年

3 李云;特征选择算法及其在基于内容图像检索中的应用研究[D];重庆大学;2005年

4 张靖;面向高维小样本数据的分类特征选择算法研究[D];合肥工业大学;2014年

5 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年

6 史彩娟;网络空间图像标注中半监督稀疏特征选择算法研究[D];北京交通大学;2015年

7 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年

8 潘巍巍;故障严重程度识别的有序分类特征分析方法[D];哈尔滨工业大学;2013年

9 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年

10 王剑桥;基于局部特性的毫米波距离像识别方法研究[D];南京理工大学;2014年

相关硕士学位论文 前10条

1 李昌聪;基于代价敏感的特征选择算法研究及应用[D];兰州大学;2019年

2 李森;基于多目标进化优化的癌症数据特征选择算法研究[D];安徽大学;2019年

3 郭伟;大样本高维数据下基于进化多目标优化的特征选择算法研究[D];安徽大学;2019年

4 唐莉;基于样本差异性分析的多标记特征选择算法研究[D];闽南师范大学;2019年

5 赵凯;Android恶意应用检测中特征选择算法的研究[D];湖南大学;2016年

6 赵军;基于Top-r方法的特征选择算法研究[D];湖南大学;2014年

7 樊力文;基于Spark的稳定特征及流式特征选择算法研究[D];河南大学;2018年

8 脱倩娟;基于数据相似性的特征选择算法研究[D];闽南师范大学;2018年

9 张梦林;基于SAL框架的特征选择算法[D];吉林大学;2018年

10 施瑞朗;中文文本分类中特征选择算法的研究与改进[D];杭州电子科技大学;2018年



本文编号:2664609

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/jsb/2664609.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aa50b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com