当前位置:主页 > 科技论文 > 自动化论文 >

生物信息学中的不平衡学习新方法研究

发布时间:2018-04-16 20:07

  本文选题:不平衡学习 + 上采样 ; 参考:《南京理工大学》2017年硕士论文


【摘要】:生物信息学是一门涉及生命科学和计算科学的交叉学科,致力于通过计算和统计技术来解决生物数据分析和计算中所产生的实际问题。生物信息学专注于开发和应用计算技术来增加对生物过程的理解。在机器学习问题中,类别不平衡问题严重影响一些标准分类器的性能。机器学习领域的研究表明直接对不平衡问题应用传统的机器学习方法往往导致预测结果偏向多数类。在许多机器学习问题中,数据的不平衡现象普遍存在,而生物信息学问题也不例外。蛋白质-ATP(即三磷酸腺苷)绑定位点预测问题是一个典型的不平衡二分类问题,其中绑定残基的数量远远少于非绑定残基。在多种生物活动中,ATP通过蛋白质的绑定位点与蛋白质相互作用,因此准确鉴别绑定残基尤为重要。对于不平衡学习问题,我们可以通过平衡类的分布来提升基于机器学习预测器的预测性能。上采样是解决类不平衡问题的常用方法,其通过合成新的少数类样本来平衡类的分布。本文中我们提出一种基于高斯混合模型的上采样方法来相对平衡类的分布,从而尽可能消除数据不平衡带来的不利影响。该方法使用高斯混合模型来模拟少数类的分布,在此基础上使用得到的模型来生成新的少数类样本。对于生成的样本,我们采用Tomek-links数据清洗技术来对其进行筛选。在UCI类别不平衡数据集上的实验结果表明我们所提出的方法能够缓解类不平衡所带来的负面影响并帮助提升分类性能。为了进一步验证该方法的有效性,我们将其应用到蛋白质-ATP绑定位点预测问题中。与此同时,我们选择使用稀疏表示方法来更好地对生成的样本进行筛选,保留那些具有语义信息更为明确的样本。我们在蛋白质-ATP作用有关的几个国际标准数据集上进行了一系列实验,实验结果验证了本文所提出方法的有效性。
[Abstract]:Bioinformatics is an interdisciplinary discipline involving life science and computational science. It is devoted to solving the practical problems in biological data analysis and calculation through computing and statistical techniques.Bioinformatics focuses on the development and application of computing techniques to increase understanding of biological processes.In machine learning problems, class imbalance seriously affects the performance of some standard classifiers.Research in the field of machine learning shows that the direct application of traditional machine learning methods to unbalanced problems often leads to the bias of prediction results to most classes.In many machine learning problems, data imbalance exists widely, and bioinformatics is no exception.The prediction of binding sites of protein-ATP is a typical disequilibrium binary classification problem in which the number of binding residues is much less than that of unbound residues.In many biological activities, ATP interacts with proteins through protein binding sites, so it is very important to identify binding residues accurately.For unbalanced learning problems, we can improve the prediction performance of machine learning predictors by the distribution of balanced classes.Upper sampling is a common method to solve class imbalance problem. It balances class distribution by synthesizing a few new class samples.In this paper, we propose a method of upper sampling based on Gao Si's mixed model to compare the distribution of equilibrium classes, so as to eliminate the adverse effects of data imbalance as much as possible.In this method, Gao Si mixed model is used to simulate the distribution of a few classes, and the resulting model is used to generate new minority class samples.For the generated samples, we use Tomek-links data cleaning technology to screen them.The experimental results on the UCI class imbalance dataset show that the proposed method can mitigate the negative effects of class imbalance and help to improve the classification performance.To further verify the effectiveness of this method, we applied it to protein-ATP binding site prediction.At the same time, we choose to use sparse representation method to better filter the generated samples and retain those samples with more explicit semantic information.We have carried out a series of experiments on several international standard data sets related to protein-ATP interaction. The experimental results show that the proposed method is effective.
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q811.4;TP181

【相似文献】

相关期刊论文 前10条

1 李伟超;林国;管涛;;高斯混合模型在错误隐藏技术中的应用[J];实验室研究与探索;2012年06期

2 张钦礼;王士同;谭左平;;二型Takagi-Sugeno-Kang模糊模型和不确定高斯混合模型的等价性[J];控制理论与应用;2009年02期

3 余鹏;童行伟;封举富;;基于最大惩罚似然的高斯混合模型无监督分类研究[J];应用概率统计;2008年05期

4 向晶;周绍光;陈超;;基于改进高斯混合模型的遥感影像道路提取[J];测绘工程;2014年03期

5 何非;张学杰;;一种基于高斯混合模型的实时色彩转换算法[J];云南大学学报(自然科学版);2009年S1期

6 余鹏,封举富,童行伟;一种新的基于高斯混合模型的纹理图像分割方法[J];武汉大学学报(信息科学版);2005年06期

7 石玉;;基于惩罚高斯混合模型的微阵列基因表达数据分析[J];中山大学学报(自然科学版);2009年03期

8 兰志刚;靳卫卫;朱明亮;于新生;国建凤;周振涛;李凯宝;;基于高斯混合模型的海冰图像非监督聚类分割研究[J];海洋科学;2011年11期

9 胡波;朱谷昌;张远飞;冷超;;基于高斯混合模型的遥感信息提取方法研究[J];国土资源遥感;2012年04期

10 陶建斌;舒宁;沈照庆;;基于高斯混合模型的遥感影像连续型朴素贝叶斯网络分类器[J];遥感信息;2010年02期

相关会议论文 前10条

1 骆俊;马尽文;;高斯混合模型的遗传分基融合算法[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

2 廖频;沈理;;基于高斯混合模型的人脸图象识别研究[A];2001年中国智能自动化会议论文集(上册)[C];2001年

3 马尽文;何学锋;;高斯混合模型的数据尺度可压缩参数学习算法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年

4 瞿俊;姜青山;董槐林;;基于高斯混合模型的层次聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

5 蔡念;郭文婷;陈世文;潘晴;;融合高斯混合模型和小波变换的运动目标检测[A];第十五届全国图象图形学学术会议论文集[C];2010年

6 龙艳花;郭武;戴礼荣;;一种应用于SVM说话者确认系统的新型序列核[A];第九届全国人机语音通讯学术会议论文集[C];2007年

7 刘李漫;陶文兵;田金文;;融合多高斯混合模型与Graph Cuts优化技术的目标自动检测方法[A];第十五届全国图象图形学学术会议论文集[C];2010年

8 康永国;双志伟;陶建华;张维;徐波;;高斯混合模型和码本映射相结合的语音转换算法[A];第八届全国人机语音通讯学术会议论文集[C];2005年

9 应冬文;颜永红;付强;国雁萌;;基于约束高斯混合模型的噪声功率谱估计[A];2010年通信理论与信号处理学术年会论文集[C];2010年

10 唐英干;刘东;关新平;;基于高斯混合模型的多分辨率图像分割[A];第十二届全国图象图形学学术会议论文集[C];2005年

相关博士学位论文 前6条

1 王益文;复杂网络节点影响力模型及其应用[D];浙江大学;2015年

2 罗林;基于数据驱动的非线性过程故障诊断若干问题研究[D];浙江大学;2015年

3 陈雪峰;图像高斯混合模型的判别学习方法[D];北京理工大学;2009年

4 赖裕平;非高斯混合模型的变分学习算法研究[D];北京邮电大学;2014年

5 刘辉;miRNA靶标预测的系统生物学方法研究[D];中国矿业大学;2009年

6 陶建斌;贝叶斯网络模型在遥感影像分类中的应用方法研究[D];武汉大学;2010年

相关硕士学位论文 前10条

1 范苗;基于高斯混合模型的时变过程软测量建模[D];浙江大学;2015年

2 许莉薇;基于高斯混合模型林业信息文本分类的技术研究[D];东北林业大学;2015年

3 车滢霞;约束条件下的结构化统计声学模型及非平行语料语音转换[D];苏州大学;2015年

4 张晓红;基于候选生成的猫脸检测[D];哈尔滨工业大学;2015年

5 付娜;基于视频的运动人体行为捕捉算法研究[D];北京理工大学;2015年

6 王炳辉;基于层次贝叶斯自适应稀疏的高斯混合模型[D];大连理工大学;2015年

7 邱藤;基于高斯混合模型的EM算法及其应用研究[D];电子科技大学;2015年

8 张小林;基于高斯混合模型和非负矩阵分解的复杂网络社区检测[D];西安电子科技大学;2014年

9 姚绍芹;基于声道谱参数的语音转换算法研究[D];南京邮电大学;2015年

10 王春辉;基于高斯混合模型的多源异类交通数据融合研究[D];杭州师范大学;2016年



本文编号:1760394

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1760394.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户47e53***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com