基于基因表达数据的信息基因选择研究
本文关键词:基于基因表达数据的信息基因选择研究
【摘要】:癌症的治疗是全世界关注的焦点之一,由于癌症的复杂多变性使得癌症的治疗成为医学界的一大挑战。癌症的本质是由细胞内基因差异表达导致的一类基因疾病。DNA芯片技术是生物医学领域的一个重大突破,可以在一次实验中同时得到数以千计的基因表达数据,该技术的发展为癌症的治疗提供了新的思路。在癌症的检测、治疗和预后方面,利用基因表达数据,定位癌症相关基因,识别具有类似形态表征的癌症的不同类别或子类具有重要意义。基因表达数据包含大量基因与相对较小的样本,容易引发“维数灾难”,导致传统的数据分析技术很难对其进行有效的处理,而且癌症通常只被一些表达水平改变的基因所标记。因此,如何对基因表达数据降维,去除冗余基因,选择出与癌症相关的信息基因子集以提高癌症类型识别的准确率,在基因表达数据的研究中是至关重要的。鉴于此,本文围绕信息基因选择算法展开研究,致力于从海量数据中选取数量较少的与癌症相关性较强的信息基因,主要研究工作如下:1.基于SCAD算法的思想,提出了一种新的信息基因选择方法——KBCGS算法,将监督学习和无监督学习结合起来,根据基因的判别能力对基因进行加权,实现聚类目标函数最小的同时获得基因的最优权重,根据基因的最优权重进行基因选择。基于KFCM算法,KBCGS算法引入了核函数和全局自适应距离,考虑到数据间的非线性关系,可以有效去除冗余基因,提高了算法的有效性。该方法高效,简单,易于扩展。2.结合KNN、SVM分类器在八个经典数据集上进行实验, 将KBCGS算法与五个流行的基因选择方法进行对比,结果显示KBCGS算法取得了更好或者相似的结果。尤其是在分类准确率较低的Lung和NCI60数据集上,本文提出的方法的分类准确率可达到87%和80.52%,显著高于其他方法,从而验证了本文提出的方法的有效性。3.在Prostate、AMLALL和Lymphoma数据集中,研究利用本文提出的方法选择出的信息基因的生物意义,通过在NCBI查询基因的注释及与前人研究中选择出的基因进行对比,可以发现我们选择出的信息基因是具有较强的生物解释意义的,可以作为“生物标记”于临床上应用,对癌症进行检测,从而表明了本文提出的方法的实际意义。
【关键词】:基因表达数据 癌症 基因选择 多分类 聚类
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R730.5
【目录】:
- 摘要8-10
- ABSTRACT10-12
- 第一章 绪论12-20
- 1.1 课题的研究背景和意义12-13
- 1.2 基因表达数据13-15
- 1.2.1 基因表达数据的获取13-14
- 1.2.2 基因表达数据的特点14
- 1.2.3 基因表达数据的数学描述14-15
- 1.3 基因表达数据分析研究现状15-18
- 1.4 文章结构安排18-20
- 第二章 基因表达数据分析20-32
- 2.1 引言20
- 2.2 数据预处理20-21
- 2.3 信息基因选择21-27
- 2.3.1 信息增益23-25
- 2.3.2 MRMR25-27
- 2.4 分类方法27-30
- 2.4.1 支持向量机27-29
- 2.4.2 K近邻分类器29-30
- 2.5 模型评价30-31
- 2.6 本章小结31-32
- 第三章 基于SCAD的信息基因选择方法32-54
- 3.1 KBCGS算法32-37
- 3.2 实验结果与分析37-52
- 3.2.1 与其他基因选择方法比较39-47
- 3.2.2 信息基因的比较47-52
- 3.3 本章小结52-54
- 第四章 总结与展望54-56
- 4.1 总结54
- 4.2 展望54-56
- 参考文献56-61
- 致谢61-62
- 攻读学位期间发表的学术论文62-63
- 学位论文评阅及答辩情况表63
【相似文献】
中国期刊全文数据库 前10条
1 张玲;伍亚舟;陈军;易东;;小波-神经网络方法在基因表达数据分析中的应用研究[J];重庆医学;2010年17期
2 刘英;;蛋白质网络和基因表达数据与癌症转移的预测[J];国际药学研究杂志;2008年02期
3 马猛;钮俊清;宁岩;郑浩然;王煦法;;聚类和关联规则挖掘在基因表达数据分析中的应用研究[J];北京生物医学工程;2008年04期
4 易东 ,张彦琦 ,王文昌 ,张蔚 ,杨梦苏 ,黄明辉 ,方志俊;基于伪F统计量的模糊聚类方法在基因表达数据分析中的应用[J];中国卫生统计;2002年03期
5 伍亚舟;张玲;罗万春;易东;;基因表达数据的多尺度特征提取与分类研究[J];计算机工程与应用;2009年13期
6 吴骋,王志勇,贺佳,贺宪民;基因表达数据中误分类点的识别与处理[J];数理医药学杂志;2004年03期
7 陆慧娟;陆江江;王明怡;陆羿;;基于压缩感知的癌症基因表达数据分类[J];中国计量学院学报;2012年01期
8 王美华;苏雄斌;蔡瑞初;罗静;;一种基于关联规则与支持向量机的基因表达数据分类模型[J];计算机应用与软件;2014年05期
9 张涛;赵发林;武振宇;李康;;Radviz可视化方法在基因表达数据分析中的应用[J];中国卫生统计;2011年01期
10 吴骋,贺佳,王志勇;基于LibSVMs软件的基因表达数据处理[J];中国卫生统计;2004年04期
中国重要会议论文全文数据库 前1条
1 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前8条
1 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
2 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
3 刘亚杰;基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D];云南大学;2014年
4 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年
5 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年
6 毛志毅;基因表达数据基因筛选与近红外光谱微量成分模型优化方法研究[D];南开大学;2014年
7 张琛;基因芯片数据处理与分析方法研究[D];吉林大学;2011年
8 程慧杰;基于模式识别方法的基因表达数据分析研究[D];哈尔滨工程大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈辉辉;基于基因表达数据的信息基因选择研究[D];山东大学;2016年
2 梁妍;基于多目标的基因表达数据双聚类算法的研究[D];广西大学;2016年
3 李靖;基于支持向量机的基因表达数据降维方法的研究[D];苏州大学;2011年
4 王海鹏;基因表达数据分析的若干问题研究[D];杭州电子科技大学;2011年
5 安平;基因表达数据的双聚类分析方法研究[D];苏州大学;2013年
6 李石法;基因表达数据的集成、分析和可视化[D];东南大学;2006年
7 于攀;基于基因表达数据的肿瘤分类方法研究[D];重庆大学;2012年
8 史建军;基因表达数据的频繁闭合项集挖掘算法研究[D];桂林电子科技大学;2010年
9 赵聚雪;分类算法在基因表达数据分析中的应用研究[D];暨南大学;2006年
10 唐小丽;基因表达数据的若干挖掘方法研究[D];扬州大学;2007年
,本文编号:1032667
本文链接:https://www.wllwen.com/yixuelunwen/zlx/1032667.html