当前位置:主页 > 科技论文 > 基因论文 >

面向基因表达数据的代价敏感学习优化方法

发布时间:2020-08-14 06:16
【摘要】:利用机器学习的方法对基因表达数据进行分类,可以有效的对癌症等疾病进行早期识别诊断,对人类健康水平的提高有十分重要的意义。决策树算法及相关的集成算法由于容易理解,结构简单等特性而被广泛的应用。但由于基因表达数据分布不平衡的特点,传统的分类算法在基因表达数据分类方面的表现还有待提高。代价敏感算法可以有效地弥补传统分类器只注重分类精度的片面性。同时,代价敏感算法本身由于缺乏适当的评价标准与合理的参数确定方法,同样需要进一步优化提高。针对上述问题,本文进行了以下研究:(1)基于旋转森林算法在处理基因表达数据分类时的优势,提出了一种针对基因表达数据分类的代价敏感旋转森林算法。通过将误分类代价、测试代价和拒识代价嵌入旋转森林算法中,构造代价敏感旋转森林算法。实验结果表明,代价敏感旋转森林算法可以在保证分类精度的基础上有效地降低分类代价。(2)结合几种常用的评价指标,提出一种针对代价敏感算法的分类精度计算方法,以平衡精度替换总体精度来有效的评定代价敏感算法的分类性能。相比于传统的总体精度,平衡精度不会忽略小类样本的贡献。通过代价敏感超限学习机对基因表达数据进行分类对比实验,结果表明平衡精度可以更为客观、合理的表示代价敏感算法的分类性能。(3)以改进的平衡精度作为评价标准,通过自适应算法得到不同权值下的分类精度,最终拟合得到可以使分类精度达到最优的代价权值确定函数。并在基因表达数据集上进行验证,证明通过该函数获得的代价权值对不同类型的数据集具有普遍适应性。通过以上研究,解决了代价敏感算法在面对基因表达数据分类时产生的代价参数确定问题,根据分类样本的特性对代价权值进行调整,可以有效地提高代价敏感算法的分类性能。
【学位授予单位】:中国计量大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181;R730.4
【图文】:

曲线,曲线,召回率,准确率


e)样例 错误正例 FP 正确负例 T标如公式(2-12)所示: 22precisionrecall1 recall precision-measure ,recall precisionTPTP FPTPTP FNF F 准确率召回率值 准确率和召回率是结合使用的,我们在实际分类中很难实现,因此根据不确率或召回率。F 值综合了准确率和评估指标的基础上,利用 ROC 曲线C 曲线是一种用图形化方式表现分类模的真正率和假正率,如图 2.1 所示。

面向基因表达数据的代价敏感学习优化方法


Lung上的分类代价

数据集,分类精度,样本数


17图 3. 2 Ovarian 上的分类代价表 3. 3 lung 和 ovarian 数据集上的总体分类精度数据集 样本数 30 60 90 120 150 180 210 240 270 3lungRoF 0.591 0.625 0.698 0.655 0.821 0.83 0.848 0.856 0.878 0C-RoF 0.498 0.538 0.573 0.608 0.693 0.782 0.72 0.755 0.738 ovarianRoF 0.641 0.654 0.657 0.738 0.763 0.825 0.801 0.792 0.849 0C-RoF 0.639 0.64 0.642 0.662 0.725 0.781 0.779 0.769 0.838 0

【相似文献】

相关期刊论文 前10条

1 王长本,刘兴晖,王伟灵,周新;基因表达数据的聚类分析[J];国外医学(临床生物化学与检验学分册);2004年04期

2 王修竹;刘自伟;齐阳;鲍竞;;基因表达数据的预处理方法[J];兵工自动化;2006年07期

3 孔薇;牟晓阳;;基于大脑不同区域的阿尔茨海默症基因表达数据分析[J];上海交通大学学报;2013年06期

4 马李冰;侯艳;李贞子;李康;;多步骤决策树方法在基因表达数据上的应用研究[J];中国卫生统计;2017年01期

5 庄振华;王年;李学俊;梁栋;王继;;癌症基因表达数据的熵度量分类方法[J];安徽大学学报(自然科学版);2010年02期

6 刘英;;蛋白质网络和基因表达数据与癌症转移的预测[J];国际药学研究杂志;2008年02期

7 顾明亮;为基因表达数据的发表制订标准[J];基础医学与临床;2002年04期

8 刘珑龙;周西龙;刘雪峰;;基于遗传算法和学习向量化网络的基因表达数据的阈值分析[J];中国海洋大学学报(自然科学版);2013年12期

9 孔薇;陶伟杰;牟晓阳;;基于非负矩阵分解的大脑不同区域基因表达数据分析[J];中国生物医学工程学报;2012年06期

10 赵洁茹;;浅谈模式识别中的支持向量机技术分析肿瘤基因表达数据[J];科技资讯;2011年33期

相关会议论文 前8条

1 刘会娟;侯艳;李康;;ARTIVA在时间序列基因表达数据网络构建中的应用[A];2017年中国卫生统计学学术年会论文集[C];2017年

2 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

3 霍煜;袁德成;;基于PCA和DE-ELM的肝癌基因表达数据分析[A];2018中国自动化大会(CAC2018)论文集[C];2018年

4 崔光照;曹祥红;张华;;基于小波变换的基因表达数据去噪聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

5 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年

6 冯晶;夏冉;曾勇华;刘娟;周怀北;;肿瘤基因表达数据库系统[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

7 梅桢;申琦;冶保献;;用于基因表达数据模式识别的KNN和SVM集成算法[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年

8 王章辉;赵宇海;王国仁;李源;;一种基于投影聚类的无监督表型区分算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

相关博士学位论文 前10条

1 姜涛;基因表达数据挖掘关键技术研究[D];西北工业大学;2016年

2 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年

3 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年

4 黄德生;基因表达数据在肿瘤诊断、基因功能预测中的应用研究[D];中国医科大学;2009年

5 刘亚杰;基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D];云南大学;2014年

6 王文俊;基因表达数据的相似性度量和特征提取研究[D];西安电子科技大学;2011年

7 毛志毅;基因表达数据基因筛选与近红外光谱微量成分模型优化方法研究[D];南开大学;2014年

8 杨博;基因调控网络构建及在癌症基因预测中的应用[D];西安电子科技大学;2014年

9 殷路;基因表达数据的双聚类分析与研究[D];电子科技大学;2017年

10 石金龙;基因表达及其转录调控机制的计算分析[D];国防科学技术大学;2010年

相关硕士学位论文 前10条

1 杨磊;面向基因表达数据的代价敏感学习优化方法[D];中国计量大学;2018年

2 吴韵怡;基于深度学习的基因表达数据处理在药效预测上的应用[D];哈尔滨工业大学;2019年

3 宋飞豹;遗传聚类算法的改进及其在基因表达数据分析中的应用[D];安徽大学;2019年

4 杨烩婷;双聚类算法及其在基因表达数据分析中应用研究[D];吉林大学;2019年

5 刘圣辉;基于基因表达数据的新型特征提取算法研究[D];山东大学;2018年

6 夏春秋;融合自训练和低秩表示的基因表达数据癌症分类方法[D];南京理工大学;2018年

7 余显学;基于基因表达数据的癌症亚型发现双聚类方法研究[D];西南大学;2018年

8 刘鸿儒;面向基因表达数据快速聚类的算法研究[D];哈尔滨工业大学;2018年

9 张晶;面向基因表达数据的并行特征选择及集成分类[D];大连理工大学;2018年

10 范媛;基于基因表达数据的癌症亚型分类研究[D];北京化工大学;2018年



本文编号:2792627

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2792627.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1a3b0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com