基因表达数据的双聚类分析与研究
本文选题:双聚类分析 切入点:基因表达数据 出处:《电子科技大学》2017年博士论文 论文类型:学位论文
【摘要】:如何快速从大规模基因表达数据中挖掘相关基因信息,实现高通量基因表达数据的精准分析,成为基因表达数据分析的关键问题。基因表达数据的双聚类分析能有效弥补传统聚类分析在搜索并确认基因局部表达模式的不足。本文以基因表达数据的双聚类分析为切入点,以提高双聚类体积、覆盖率、均方残差等质量评价指标和生物意义为主要目标,基于布谷鸟搜索算法,从单目标优化、多目标优化和集成学习等方面开展双聚类分析研究,解决现有双聚类分析方法存在的双聚类的质量差、多样性不足和生物意义不明显等问题。论文的主要工作包括:(1)提出基于布谷鸟搜索双聚类分析算法(Cuckoo Search Biclustering,CSB)。针对现有双聚类分析的低覆盖率和高均方残差等问题,该算法提出初始双聚类优化选取的策略提高解多样性,同时在搜索过程中采用服从莱维飞行的随机搜索策略解决解早熟。CSB算法可有效提高搜索范围和速度,并能稳定跳出局部最优解,同时可找到包含不同基因的双聚类,避免基因过于集中问题。与CC、FLOC、ISA、BIC-aiNet、SEBI、SAB和SSB等算法比较,实验表明CSB算法的双聚类质量和生物意义更优。(2)提出基于遗传算法和布谷鸟搜索的混合双聚类分析算法(Genetic Algorithm and Cuckoo Search hybrid Biclustering,GACSB)。通过引入遗传算法的锦标赛选择和精英保留等策略,GACSB算法可在计算代价不大幅增加的条件下拓展搜索范围和深度从而提高双聚类的多样性。与CC、FLOC、ISA、SEBI、SSB和CSB等算法的对比实验表明GACSB算法在双聚类的多样性和生物意义上有大幅提高。通过ACV、MSR和VE等指标对比分析,说明GACSB算法可搜索到不同类型的双聚类,具有较强可扩展性。(3)提出基于多目标布谷鸟搜索的双聚类分析算法(Multi-Objective Cuckoo Search Biclustering,MOCSB)。通过将双聚类分析转化为多目标优化问题,该算法把多目标布谷鸟搜索算法引入双聚类分析来同时优化双聚类的均方残差和体积等质量评价指标。MOCSB算法把搜索占优解集操作与布谷鸟巢搜索和宿主弃巢操作结合,可根据实际需要灵活使用各种双聚类评价指标。与CC、SEBI、SMOB和CSB等算法比较表明MOCSB算法能提高双聚类的质量和生物意义。(4)提出基于谱聚类的集成双聚类分析算法(Spectral Ensemble Biclustering,SEB)。针对双聚类集成问题中双聚类的质量不高且多样性不足,一致函数计算复杂度高和双聚类结果的生物意义不明显等问题,SEB算法使用不同双聚类质量评价指标获得多个基双聚类,然后基于谱聚类的一致函数进行集成获得一致双聚类。与VC、BGPC、MMMC和COAC等算法对比分析表明SEB算法在计算效率、双聚类的质量评价指标和生物意义等方面获得提高。
[Abstract]:How to quickly mine the related gene information from large-scale gene expression data, and realize accurate analysis of high-throughput gene expression data, It is the key problem of gene expression data analysis. The double cluster analysis of gene expression data can effectively make up for the deficiency of traditional clustering analysis in searching and confirming the local expression pattern of gene. In this paper, we take the double cluster analysis of gene expression data as the breakthrough point. In order to improve the quality evaluation indexes such as volume, coverage, mean square residuals and biological significance of the double clustering, based on the cuckoo search algorithm, double clustering analysis was carried out from the aspects of single objective optimization, multi-objective optimization and integrated learning. In order to solve the problem of poor quality of the existing methods of double clustering analysis, The main work of this paper includes: 1) to propose a Cuckoo Search Biclusteringing algorithm based on Cuckoo Search Biclustering.To solve the problems of low coverage and high mean square residuals in the existing double clustering analysis, In this algorithm, the initial double clustering optimization strategy is proposed to improve the diversity of solutions, and the random search strategy of flight from Levi to solve the precocious. CSB algorithm can effectively improve the search range and speed. It can stably jump out of the local optimal solution, at the same time, we can find the double clustering containing different genes, and avoid the problem of gene concentration, which is compared with the algorithms such as CCF FLOCU ISAA BIC-aiNet SEBISAB and SSB, etc. Experiments show that the CSB algorithm has better quality and biological meaning.) A hybrid clustering analysis algorithm based on genetic Algorithm and Cuckoo Search hybrid hybrid clustering is proposed based on genetic algorithm and Cuckoo search. The introduction of genetic algorithm for tournament selection and elite preservation is carried out. The GASCSB algorithm can expand the search range and depth without significantly increasing the computational cost, and thus improve the diversity of the double clustering. The experiment results show that the GACSB algorithm has diversity and growth in biclustering compared with other algorithms such as CCF FLOCU ISAA and SEBISSB and CSB. Through the comparative analysis of ACVG MSR and VE, It shows that the GACSB algorithm can search different types of double clustering, and has strong extensibility.) A multi-objective Cuckoo Search clustering analysis algorithm based on multi-objective cuckoo search is proposed. By transforming the double clustering analysis into a multi-objective optimization problem, this paper proposes a new algorithm, which is called Multi-Objective Cuckoo Search clustering algorithm. In this algorithm, the multi-objective cuckoo search algorithm is introduced into the double clustering analysis to optimize the quality evaluation indexes such as mean square residuals and volume simultaneously. MOCSB algorithm combines the search dominant solution set operation with the cuckoo nest search and host abandon nest operation. According to the actual needs, we can flexibly use all kinds of evaluation indexes of double clustering. Compared with the algorithms such as CCS, SMOB and CSB, it shows that the MOCSB algorithm can improve the quality and biological significance of the double clustering.) an integrated double clustering algorithm based on spectral clustering is proposed, which is called Spectral Ensemble Biclustering. In order to solve the problem of biclustering integration, the quality of biclustering is not high and the diversity is not enough. The problems of high computational complexity of uniform function and the biological significance of the result of biclustering are not obvious. The SEB algorithm uses different quality evaluation indexes of biclustering to obtain multiple base biclustering. Then, the coherent function based on spectral clustering is integrated to obtain the uniform biclustering, which is compared with the VCP-BGPC-MMMC and COAC algorithms. The results show that the efficiency of the SEB algorithm, the quality evaluation index and the biological significance of the BGPC-MMMC algorithm are improved.
【学位授予单位】:电子科技大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 陈冬牛;用于零件成组的多目标聚类分析[J];成组生产系统;1986年01期
2 李斌,郭剑毅;聚类分析在客户关系管理中的研究与应用[J];计算机工程与设计;2005年02期
3 张宏翔;李星;;基于聚类分析的学生学习相关性研究[J];计算机光盘软件与应用;2013年11期
4 蔡建国;;排序聚类分析在成组技术中的应用[J];机械工艺师;1985年01期
5 董玉祥;排序聚类分析计算程序[J];成组生产系统;1986年01期
6 A·Gongaware,Inyong Ham,焦虹;用于成组制造系统的聚类分析法[J];成组生产系统;1986年02期
7 史逸芬,蔡建国;排序聚类分析法在相似零件成组中的应用[J];成组生产系统;1986年03期
8 徐大威,王鸿歌;聚类分析应用程序系统[J];冶金自动化;1988年01期
9 张春早;会议评判与聚类分析[J];机械工程;1988年02期
10 吴国安;聚类分析在鸟的分类中的应用[J];黑龙江大学自然科学学报;1989年04期
相关会议论文 前10条
1 梅翠;;我国各地区居民收入差距及其对消费的制约[A];中国现场统计研究会第12届学术年会论文集[C];2005年
2 李均立;傅国华;;海南各县(市)经济实力的聚类分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 刘黄金;曹林峰;;南京服务业发展的聚类分析[A];江苏省现场统计研究会第十次学术年会论文集[C];2006年
4 肖静;杨泽峰;徐辰武;;微阵列表达谱监督聚类分析方法的比较研究[A];江苏省遗传学会第七届代表大会暨学术研讨会论文摘要汇编[C];2006年
5 路爱峰;崔玉杰;;沪市电力上市公司经营业绩的聚类分析[A];中国数学力学物理学高新技术交叉研究学会第十二届学术年会论文集[C];2008年
6 陈国华;廖小莲;夏君;;证券投资分析的聚类分析方法[A];中国企业运筹学[2011(1)][C];2011年
7 张红卫;隗金水;;聚类分析评价与测量效度关系探讨[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
8 牛东晓;乞建勋;;网络资源平衡问题的聚类分析优化遗传算法研究[A];2001年中国管理科学学术会议论文集[C];2001年
9 詹原瑞;彭书杰;李如一;;基于聚类分析的企业信用等级评价方法[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
10 邹晓玫;修春波;;基于聚类分析的犯罪率相关因素的研究[A];当代法学论坛(二○一○年第3辑)[C];2010年
相关博士学位论文 前10条
1 殷路;基因表达数据的双聚类分析与研究[D];电子科技大学;2017年
2 张建萍;基于计算智能技术的聚类分析研究与应用[D];山东师范大学;2014年
3 李成安;分布式环境下聚类分析新方法的研究[D];浙江大学;2006年
4 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
5 杨旭杰;基于统计方法模型分析的中药复方专利保护研究[D];北京中医药大学;2012年
6 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
7 刘亚杰;基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D];云南大学;2014年
8 李宝玲;王裕颐教授学术思想与临床经验总结及治疗眩晕证治规律研究[D];北京中医药大学;2012年
9 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年
10 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年
相关硕士学位论文 前10条
1 李元俊;大学生就业能力培养与社会需求的匹配性研究[D];山东建筑大学;2015年
2 冯雪冰;基于模糊理论的EM算法在聚类分析的应用研究[D];中国地质大学(北京);2015年
3 黄银;行业地区发展水平的聚类分析[D];苏州大学;2015年
4 郭俊峰;聚类分析下的股票投资价值挖掘研究[D];大连海事大学;2015年
5 张旭;考虑风电接入不确定性的节点特性建模研究[D];山东大学;2015年
6 褚旭;我国各省市CDM项目聚类分析及影响因素研究[D];首都经济贸易大学;2015年
7 刘鑫琳;VAGUE集理论及其在聚类分析中的应用[D];广西大学;2015年
8 周颖;基于蚁群算法的聚类分析在学生成绩中的研究[D];南昌大学;2015年
9 邢蕊;以聚类分析为基础的我国证券公司效率研究[D];山西大学;2015年
10 王帅宇;K-Means算法在用户细分方面的应用研究[D];北京理工大学;2015年
,本文编号:1616589
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1616589.html