当前位置:主页 > 医学论文 > 肿瘤论文 >

基于基因表达数据的信息基因选择研究

发布时间:2017-10-14 19:09

  本文关键词:基于基因表达数据的信息基因选择研究


  更多相关文章: 基因表达数据 癌症 基因选择 多分类 聚类


【摘要】:癌症的治疗是全世界关注的焦点之一,由于癌症的复杂多变性使得癌症的治疗成为医学界的一大挑战。癌症的本质是由细胞内基因差异表达导致的一类基因疾病。DNA芯片技术是生物医学领域的一个重大突破,可以在一次实验中同时得到数以千计的基因表达数据,该技术的发展为癌症的治疗提供了新的思路。在癌症的检测、治疗和预后方面,利用基因表达数据,定位癌症相关基因,识别具有类似形态表征的癌症的不同类别或子类具有重要意义。基因表达数据包含大量基因与相对较小的样本,容易引发“维数灾难”,导致传统的数据分析技术很难对其进行有效的处理,而且癌症通常只被一些表达水平改变的基因所标记。因此,如何对基因表达数据降维,去除冗余基因,选择出与癌症相关的信息基因子集以提高癌症类型识别的准确率,在基因表达数据的研究中是至关重要的。鉴于此,本文围绕信息基因选择算法展开研究,致力于从海量数据中选取数量较少的与癌症相关性较强的信息基因,主要研究工作如下:1.基于SCAD算法的思想,提出了一种新的信息基因选择方法——KBCGS算法,将监督学习和无监督学习结合起来,根据基因的判别能力对基因进行加权,实现聚类目标函数最小的同时获得基因的最优权重,根据基因的最优权重进行基因选择。基于KFCM算法,KBCGS算法引入了核函数和全局自适应距离,考虑到数据间的非线性关系,可以有效去除冗余基因,提高了算法的有效性。该方法高效,简单,易于扩展。2.结合KNN、SVM分类器在八个经典数据集上进行实验, 将KBCGS算法与五个流行的基因选择方法进行对比,结果显示KBCGS算法取得了更好或者相似的结果。尤其是在分类准确率较低的Lung和NCI60数据集上,本文提出的方法的分类准确率可达到87%和80.52%,显著高于其他方法,从而验证了本文提出的方法的有效性。3.在Prostate、AMLALL和Lymphoma数据集中,研究利用本文提出的方法选择出的信息基因的生物意义,通过在NCBI查询基因的注释及与前人研究中选择出的基因进行对比,可以发现我们选择出的信息基因是具有较强的生物解释意义的,可以作为“生物标记”于临床上应用,对癌症进行检测,从而表明了本文提出的方法的实际意义。
【关键词】:基因表达数据 癌症 基因选择 多分类 聚类
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R730.5
【目录】:
  • 摘要8-10
  • ABSTRACT10-12
  • 第一章 绪论12-20
  • 1.1 课题的研究背景和意义12-13
  • 1.2 基因表达数据13-15
  • 1.2.1 基因表达数据的获取13-14
  • 1.2.2 基因表达数据的特点14
  • 1.2.3 基因表达数据的数学描述14-15
  • 1.3 基因表达数据分析研究现状15-18
  • 1.4 文章结构安排18-20
  • 第二章 基因表达数据分析20-32
  • 2.1 引言20
  • 2.2 数据预处理20-21
  • 2.3 信息基因选择21-27
  • 2.3.1 信息增益23-25
  • 2.3.2 MRMR25-27
  • 2.4 分类方法27-30
  • 2.4.1 支持向量机27-29
  • 2.4.2 K近邻分类器29-30
  • 2.5 模型评价30-31
  • 2.6 本章小结31-32
  • 第三章 基于SCAD的信息基因选择方法32-54
  • 3.1 KBCGS算法32-37
  • 3.2 实验结果与分析37-52
  • 3.2.1 与其他基因选择方法比较39-47
  • 3.2.2 信息基因的比较47-52
  • 3.3 本章小结52-54
  • 第四章 总结与展望54-56
  • 4.1 总结54
  • 4.2 展望54-56
  • 参考文献56-61
  • 致谢61-62
  • 攻读学位期间发表的学术论文62-63
  • 学位论文评阅及答辩情况表63

【相似文献】

中国期刊全文数据库 前10条

1 张玲;伍亚舟;陈军;易东;;小波-神经网络方法在基因表达数据分析中的应用研究[J];重庆医学;2010年17期

2 刘英;;蛋白质网络和基因表达数据与癌症转移的预测[J];国际药学研究杂志;2008年02期

3 马猛;钮俊清;宁岩;郑浩然;王煦法;;聚类和关联规则挖掘在基因表达数据分析中的应用研究[J];北京生物医学工程;2008年04期

4 易东 ,张彦琦 ,王文昌 ,张蔚 ,杨梦苏 ,黄明辉 ,方志俊;基于伪F统计量的模糊聚类方法在基因表达数据分析中的应用[J];中国卫生统计;2002年03期

5 伍亚舟;张玲;罗万春;易东;;基因表达数据的多尺度特征提取与分类研究[J];计算机工程与应用;2009年13期

6 吴骋,王志勇,贺佳,贺宪民;基因表达数据中误分类点的识别与处理[J];数理医药学杂志;2004年03期

7 陆慧娟;陆江江;王明怡;陆羿;;基于压缩感知的癌症基因表达数据分类[J];中国计量学院学报;2012年01期

8 王美华;苏雄斌;蔡瑞初;罗静;;一种基于关联规则与支持向量机的基因表达数据分类模型[J];计算机应用与软件;2014年05期

9 张涛;赵发林;武振宇;李康;;Radviz可视化方法在基因表达数据分析中的应用[J];中国卫生统计;2011年01期

10 吴骋,贺佳,王志勇;基于LibSVMs软件的基因表达数据处理[J];中国卫生统计;2004年04期

中国重要会议论文全文数据库 前1条

1 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

中国博士学位论文全文数据库 前8条

1 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年

2 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年

3 刘亚杰;基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D];云南大学;2014年

4 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年

5 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年

6 毛志毅;基因表达数据基因筛选与近红外光谱微量成分模型优化方法研究[D];南开大学;2014年

7 张琛;基因芯片数据处理与分析方法研究[D];吉林大学;2011年

8 程慧杰;基于模式识别方法的基因表达数据分析研究[D];哈尔滨工程大学;2012年

中国硕士学位论文全文数据库 前10条

1 陈辉辉;基于基因表达数据的信息基因选择研究[D];山东大学;2016年

2 梁妍;基于多目标的基因表达数据双聚类算法的研究[D];广西大学;2016年

3 李靖;基于支持向量机的基因表达数据降维方法的研究[D];苏州大学;2011年

4 王海鹏;基因表达数据分析的若干问题研究[D];杭州电子科技大学;2011年

5 安平;基因表达数据的双聚类分析方法研究[D];苏州大学;2013年

6 李石法;基因表达数据的集成、分析和可视化[D];东南大学;2006年

7 于攀;基于基因表达数据的肿瘤分类方法研究[D];重庆大学;2012年

8 史建军;基因表达数据的频繁闭合项集挖掘算法研究[D];桂林电子科技大学;2010年

9 赵聚雪;分类算法在基因表达数据分析中的应用研究[D];暨南大学;2006年

10 唐小丽;基因表达数据的若干挖掘方法研究[D];扬州大学;2007年



本文编号:1032667

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/zlx/1032667.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户499d2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com