生物组学数据的集成特征选择研究

发布时间:2017-12-31 10:39

  本文关键词:生物组学数据的集成特征选择研究 出处:《深圳大学》2017年博士论文 论文类型:学位论文


  更多相关文章: 生物组学数据 分类 粒子群优化算法 特征选择 模型选择


【摘要】:高通量技术的发展产生了大量与基因、蛋白质和代谢相关的生物组学数据。从生物组学数据中发现和提炼与疾病相关的信息一直是生物信息学领域的热点问题。通过模式识别中的特征选择和分类技术,对高维生物组学数据中蕴藏的重要信息进行提取、筛选、识别和分类是分析生物组学数据的常用方法。生物组学数据具有的高维小样本、多类间样本分布不平衡等多种特征和样本统计分布特性,对特征选择算法在分类泛化性和稳定性等方面的表现提出巨大挑战,为了精确和稳定地提取与分类目标高度相关的特征子集,需要我们深入地研究和设计针对生物组学数据特征选择问题的新方法。本文针对生物组学数据的不同特性,提出了一系列集成特征选择算法,主要工作概括如下:1.在研究多种特征相关性度量的基础上,提出一种基于多种相关性度量的集成最大相关最小冗余(maximum Relevance and Minimum Redundancy,mRMR)特征选择算法。我们分析了最大信息系数、皮尔逊相关系数和互信息量在特征相关性度量方面的差异,并对前向搜索算法进行改进,增加可以设置所选择特征个数和搜索范围的机制,基于3种特征相关性度量和改进的搜索算法获得三组最优特征子集并进行集成分类学习。对不同类型的多组生物组学数据集的分类对比实验结果表明,集成m RMR特征选择算法能够针对各种类型的生物组学数据有效地选择最优特征子集,并有助于分类算法获得良好的识别性能。2.针对生物组学数据普遍存在多个最优或次优特征子集的情况,提出基于小生境二进制粒子群优化的集成特征选择算法。基于单一特征子集构建的分类模型在小样本生物组学数据上容易产生过拟合而影响分类泛化性能。为了尽量避免该问题,本文通过小生境二进制粒子群优化算法作为特征子集搜索算法,获得多个差异度最大且分类性能最优的特征子集并进行集成分类学习,由投票技术所集成的强分类器体现出优良的稳定性和泛化性。3.为了克服生物组学数据类间样本不平衡特性对特征选择和分类过程的影响,本文提出一种迭代式集成特征选择算法。该算法利用2种样本平衡预处理方法和3种过滤式生物组学数据特征选择算法,通过样本平衡和特征选择不断迭代的方式,使特征选择在一个趋于平衡的样本分布中迭代完成。对多组具有类间样本不平衡特性的生物组学数据进行分类实验,结果表明,由于克服了样本不平衡特性对特征选择的影响,所设计的迭代集成特征选择算法可以进一步提高分类性能。4.针对迭代集成特征选择所具有的局限性,本文提出一种基于粒子群优化的集成特征和模型选择算法。该算法将候选样本平衡模型、特征选择模型和分类模型的选择以及相应模型的超参数编码到粒子中。通过粒子种群的优化,自适应搜索具有最优分类性能的模型组合以及对应模型的超参数设置。实验结果表明,基于粒子群优化的集成特征和模型选择算法能够根据不同生物组学数据的样本和特征分布特性,自适应选择样本平衡模型和特征选择模型的最优组合,避免人为选择和设置模型所引入的主观偏差。本文所提出的一系列集成特征选择算法有助于解决生物组学数据复杂的样本和特征分布特性对特征选择和分类所造成的困难,所使用的集成特征选择思路可为后续相关生物组学数据分析提供借鉴。
[Abstract]:Produced a large number of genes and the development of high-throughput technologies, biological data and metabolism related proteins. Proteomics data from biological discovery and refining and disease related information has been a hot issue in the field of bioinformatics. By using feature selection in pattern recognition and classification technology, the important information of high dimensional biological group the data contained in the extraction, screening, identification and classification is used to analyze biological omics data. Littlescale bio omics data with the multi class samples of unbalanced distribution of a variety of features and the statistical distribution characteristic, the challenge for the feature selection algorithm in the classification generalization and stability other aspects of the performance, in order to accurately and stably extract feature subset is highly correlated with the classification of the target, we need to further research and design for the new bio omics data feature selection problem Method. In this paper, according to different characteristics of biological data set, put forward a series of integrated feature selection algorithm, the main work is summarized as follows: 1. based on the correlation of various features measurement, and put forward a multiple correlation measure integrated optimization based on (maximum Relevance and Minimum Redundancy, mRMR) feature selection algorithm. We analysis of the maximum information coefficient, Pearson correlation coefficient and mutual information measure of the difference in the characteristics of correlation, and improvement of the forward search algorithm, which can increase the set number of feature selection mechanism and the scope of the search, the search algorithm measure and improve the 3 kinds of features based on the correlation of three groups are obtained and the best subset of features the integrated classification study. The classification and comparison of experimental results of different types of multi omics data sets show that the integrated m RMR feature selection algorithm can pin The biological group various types of data to select the optimal feature subset, and contribute to the classification algorithm to obtain good performance of.2. identification data for biological ubiquitous multiple optimal or sub feature subset selection algorithm is proposed, the integrated characteristics of niche binary particle swarm optimization based on classification generalization performance the classification model of single feature subset construction in small samples of biological omics data on prone to overfitting. Based on in order to avoid this problem, this paper through the niche binary particle swarm optimization algorithm for feature subset search algorithm, obtained a lot of difference and the maximum classification performance of optimal feature subset and ensemble learning, strong the classifier integrated by voting technology showed excellent stability and generalization of.3. in order to overcome the omics data between the sample imbalance characteristics of special Effect of feature selection and classification process, this paper proposes an iterative ensemble feature selection algorithm. 2 kinds of sample pretreatment methods and the balance of 3 kinds of filtering biological omics data feature selection algorithm using the algorithm, the sample balance and iterative feature selection, the feature selection iteration in a balance the distribution of samples. Data classification experiment is performed on groups of biological groups between class imbalance characteristics showed that due to overcome the unbalanced samples characteristics of feature selection, the limitations of the iterative ensemble feature selection algorithm can further improve the classification performance of.4. in accordance with the iterative ensemble feature selection in this paper, a particle swarm optimization model and ensemble feature selection algorithm based on the algorithm. The candidate sample balance model, feature selection and classification model selection model And the corresponding model to super parameter encoding particles. By optimizing the particle population, set parameter has the optimal performance of the classification model combination and the corresponding model of adaptive search. The experimental results show that the particle swarm optimization algorithm for model selection and integration features according to different biological omics data samples and distribution characteristics based on adaptive to select the optimal combination sample balance model and feature selection model, avoid subjective bias introduced by artificial selection and setting of the model. This paper proposed a series of integrated feature selection algorithm helps to solve biological omics samples and feature distribution characteristics of complex data caused by feature selection and classification problems, using integrated features select the ideas for the follow-up biological omics data analysis to provide reference.

【学位授予单位】:深圳大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:Q811.4;TP18

【相似文献】

相关期刊论文 前10条

1 付涛;;基于特征选择的多示例学习算法研究[J];科技通报;2013年08期

2 杨打生,郭延芬;一种特征选择的信息论算法[J];内蒙古大学学报(自然科学版);2005年03期

3 张永;曹东侠;;一种高效的特征选择机制应用于入侵检测[J];甘肃科学学报;2011年03期

4 杨锦英;王碧泉;;K—W检验和熵法在单个特征选择中的应用[J];华北地震科学;1989年02期

5 刘代志,李夕海,张斌;基于序优化方法的特征选择研究[J];核电子学与探测技术;2004年06期

6 刘开第,薛俊锋,庞彦军;特征选择及其常用算法[J];河北建筑科技学院学报;2004年04期

7 喻军;孟晓玲;;一种基于层次分析的特征选择法[J];中国科技信息;2006年10期

8 南重汉;邹凌云;;基于分组重量编码和特征选择技术预测外膜蛋白[J];第三军医大学学报;2013年13期

9 苗玉杰;;差分进化在图像特征选择中的应用研究[J];科技通报;2013年08期

10 赵小杰,种劲松,王宏琦;合成孔径雷达图像的特征选择[J];遥感技术与应用;2001年03期

相关会议论文 前10条

1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

4 倪友平;王思臣;马桂珍;陈曾平;;分支界定算法在低分辨雷达飞机架次判别中的应用[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年

5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年

6 蒙新泛;王厚峰;;主客观识别中的上下文因素的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

7 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

8 范丽;许洁萍;;基于GMM的音乐信号音色模型研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年

9 陈友;戴磊;程学旗;;基于MRMHC-C4.5的IP流分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

10 申f;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年

相关博士学位论文 前10条

1 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年

2 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年

3 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年

4 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年

5 王爱国;微阵列基因表达数据的特征分析方法研究[D];合肥工业大学;2015年

6 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年

7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年

8 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年

9 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年

10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年

相关硕士学位论文 前10条

1 周瑞;基于支持向量机特征选择的移动通信网络问题分析[D];华南理工大学;2015年

2 张金蕾;蛋白质SUMO化修饰位点预测的数据挖掘技术研究[D];西北农林科技大学;2015年

3 陈云风;基于聚类集成技术的高铁信号故障诊断研究[D];西南交通大学;2015年

4 张斌斌;网络股评的倾向性分析[D];中央民族大学;2015年

5 季金胜;高分辨率遥感影像典型地物目标的特征选择及其稳定性研究[D];上海交通大学;2015年

6 袁玉录;基于数据分类的网络通信行为建模方法研究[D];电子科技大学;2015年

7 王虎;基于试验设计的白酒谱图特征选择及支持向量机参数优化研究[D];南京财经大学;2015年

8 王维智;基于特征提取和特征选择的级联深度学习模型研究[D];哈尔滨工业大学;2015年

9 皮阳;基于声音的生物种群识别[D];电子科技大学;2015年

10 刘树龙;特征选择在软件缺陷预测中的应用技术研究[D];南京大学;2015年



本文编号:1359422

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1359422.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8bad3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com