面向基因表达数据的分类与特征选择方法研究
本文选题:基因表达数据 切入点:正则极限学习机 出处:《中国计量大学》2016年硕士论文
【摘要】:在生物信息学领域,DNA微阵列技术的出现是一个具有里程碑意义的重大技术突破。随着研究的不断深入,它已被广泛应用于药物研究、基因测序等众多领域,具有极高的应用价值和广阔的发展前景。然而在实际应用中,DNA微阵列技术研究的基因组对象规模越来越大,特征维数也越来越高,最终获得的基因表达数据不仅具有高维小样本的特点,还含有大量和样本分类无关或对样本分类作用很小的冗余基因和噪声基因。基因表达数据的这些特点会提高机器学习的时间及空间复杂度,降低分类精度,最终在疾病诊断等实际应用中会增加成本,降低疾病预测的准确度。因此,为提高基因表达数据的分类精度,本文从两方面着手进行研究:一方面对分类算法进行改进,另一方面通过提出有效的特征选择方法以筛选出关键基因,剔除冗余和噪声基因,降低基因特征维数,提高机器学习效率。研究的主要内容如下:(1)正则极限学习机(RELM)是在极限学习机(ELM)的基础上提出来的,具有简单易用、分类精度较高、泛化能力好等优点。然而RELM的输入层权值、隐含层偏差是随机给定的,会影响RELM的稳定性。另外,RELM为了获得较理想的分类精度,仍需设置较多的隐层节点。针对此问题,通过分析粒子群算法(PSO)的原理,把RELM初始产生的输入层权值、隐含层偏差作为粒子带入PSO进行寻优,提出了一种粒子群改进RELM(PSO-RELM)。在UCI数据集上的仿真实验表明,PSO-RELM相对BP神经网络、支持向量机(SVM)、RELM具有更好的分类精度和更佳的稳定性。(2)提出一种结合互信息最大化(MIM)和自适应遗传算法(AGA)的特征选择方法(MIMAGA-Selection),其中选择ELM作为分类器来计算样本的分类精度。首先根据源数据集中各基因和不同类别的互信息最大化进行分组和筛选,形成一个初选基因子集;然后运用以样本分类精度作为适应度函数的自适应遗传算法对初选基因子集进行寻优,最终得到一个最优基因子集。通过在3个UCI标准数据集上进行的实验表明,该方法能有效剔除冗余基因和噪声基因,显著提高样本分类精度。
[Abstract]:The emergence of DNA microarray technology in the field of bioinformatics is a landmark breakthrough. With the development of research, it has been widely used in many fields, such as drug research, gene sequencing and so on. It has high application value and broad development prospect. However, in the practical application, the genome objects studied by DNA microarray technology are becoming larger and larger, and the characteristic dimension is becoming higher and higher. The obtained gene expression data not only has the characteristics of high dimension and small sample, It also contains a large number of redundant and noisy genes which are independent of sample classification or have little effect on sample classification. These characteristics of gene expression data can increase the time and space complexity of machine learning and reduce the classification accuracy. Finally, the cost will be increased and the accuracy of disease prediction will be reduced in practical applications such as disease diagnosis. Therefore, in order to improve the classification accuracy of gene expression data, this paper studies from two aspects: on the one hand, the classification algorithm is improved. On the other hand, an effective feature selection method is proposed to screen out key genes, eliminate redundant and noise genes, and reduce the dimension of gene features. To improve the efficiency of machine learning. The main contents of the study are as follows: 1) the regular extreme learning machine (RELM) is put forward on the basis of the extreme learning machine (ELM), which has the advantages of easy to use, high classification accuracy, good generalization ability and so on. However, the input layer weight of RELM, The hidden layer deviation is given at random, which will affect the stability of RELM. In addition, in order to obtain the ideal classification accuracy, more hidden layer nodes still need to be set. In order to solve this problem, the principle of particle swarm optimization (PSO) is analyzed. In this paper, the input layer weights generated initially by RELM and hidden layer deviations are brought into PSO as particles for optimization. An improved particle swarm optimization (PSO) PSO-RELMN is proposed. The simulation results on UCI data sets show that PSO-RELM is relative to BP neural networks. Support Vector Machine (SVM) SVM / RELM has better classification accuracy and better stability. (2) A feature selection method combining mutual information maximization (mim) and adaptive genetic algorithm (AGA) is proposed, in which ELM is selected as the classifier to calculate the score of samples. Class accuracy. First, grouping and filtering based on the maximization of mutual information between genes and different categories in the source dataset, A subset of primary genes is formed, and then an adaptive genetic algorithm based on the accuracy of sample classification as fitness function is used to optimize the subsets of primary genes. Finally, an optimal subset of genes is obtained. Experiments on three UCI standard datasets show that the proposed method can effectively eliminate redundant genes and noise genes and improve the classification accuracy of samples.
【学位授予单位】:中国计量大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4;TP18
【相似文献】
相关期刊论文 前10条
1 朱婵,许龙飞;聚类算法在基因表达数据分析中的应用[J];华侨大学学报(自然科学版);2005年01期
2 张焕萍;王惠南;宋晓峰;;最小支撑树算法在基因表达数据聚类分析中的应用[J];南京航空航天大学学报;2007年02期
3 张玲;伍亚舟;陈军;易东;;小波-神经网络方法在基因表达数据分析中的应用研究[J];重庆医学;2010年17期
4 王祥林;;基于矩阵变换的层次聚类在基因表达数据分析中的应用研究[J];计算机光盘软件与应用;2012年24期
5 陈佳妮;段文英;丁徽;;模糊C-均值聚类分析在基因表达数据分析中的应用[J];森林工程;2010年02期
6 马猛;钮俊清;宁岩;郑浩然;王煦法;;聚类和关联规则挖掘在基因表达数据分析中的应用研究[J];北京生物医学工程;2008年04期
7 易东 ,张彦琦 ,王文昌 ,张蔚 ,杨梦苏 ,黄明辉 ,方志俊;基于伪F统计量的模糊聚类方法在基因表达数据分析中的应用[J];中国卫生统计;2002年03期
8 郭红;蔡莉;;采用多目标微分进化算法的基因表达数据双向聚类[J];小型微型计算机系统;2010年10期
9 石玉;李慧敏;兰社云;;基于稀疏极大边界特征的癌症基因表达数据分析[J];郑州师范教育;2012年04期
10 于彬;;基于SVM-OVA方法的多类别基因表达数据分类[J];青岛科技大学学报(自然科学版);2008年04期
相关会议论文 前1条
1 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
相关博士学位论文 前8条
1 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
2 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
3 刘亚杰;基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D];云南大学;2014年
4 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年
5 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年
6 毛志毅;基因表达数据基因筛选与近红外光谱微量成分模型优化方法研究[D];南开大学;2014年
7 张琛;基因芯片数据处理与分析方法研究[D];吉林大学;2011年
8 程慧杰;基于模式识别方法的基因表达数据分析研究[D];哈尔滨工程大学;2012年
相关硕士学位论文 前10条
1 陈辉辉;基于基因表达数据的信息基因选择研究[D];山东大学;2016年
2 梁妍;基于多目标的基因表达数据双聚类算法的研究[D];广西大学;2016年
3 李晓丹;基于基因表达数据的癌症特征基因选择方法研究[D];北京工业大学;2016年
4 席艳秋;基因表达数据的双向聚类算法的研究[D];扬州大学;2011年
5 李锐;基因表达数据的并行聚类及其集成分类研究[D];大连理工大学;2016年
6 王石磊;面向基因表达数据的分类与特征选择方法研究[D];中国计量大学;2016年
7 李靖;基于支持向量机的基因表达数据降维方法的研究[D];苏州大学;2011年
8 王海鹏;基因表达数据分析的若干问题研究[D];杭州电子科技大学;2011年
9 安平;基因表达数据的双聚类分析方法研究[D];苏州大学;2013年
10 李石法;基因表达数据的集成、分析和可视化[D];东南大学;2006年
,本文编号:1673555
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1673555.html