基于机器学习的唾液分泌蛋白识别研究

发布时间:2017-09-20 19:35

  本文关键词:基于机器学习的唾液分泌蛋白识别研究


  更多相关文章: 机器学习 聚类 特征选择 唾液分泌蛋白识别


【摘要】:本文采用机器学习方法,针对生物信息学领域中的唾液分泌蛋白识别问题,做了较为深入而细致的研究。主要工作如下: 1.提出了凝结核聚类算法,利用支持向量聚类算法(SVC)的思想,获得高维特征空间中的样本分布,提取样本子集形成各个聚类的凝结核,然后再对剩余样本进行聚类或分类处理。根据策略的不同组合,实现了三种凝结核聚类算法——SVC-KM、CNC、GCNC。实验结果表明,新方法在运行时间、处理数据能力、鲁棒性等方面,都要优于原始算法。 2.提出了一种基于局部样本的特征选择算法,对于每个样本,只使用与其距离最近的少数样本做信息特征选择。采用选出的局部样本,结合t检验、置换t检验和最大相关最小冗余方法等三种过滤式特征选择算法,对六种癌症的基因表达数据进行分析,实验结果表明,在采用局部样本后,t检验、置换t检验和最大相关最小冗余方法所选出的特征基因明显优于原方法。 3.提出了唾液分泌蛋白识别的框架,结合蛋白质家族信息,构造了非唾液分泌蛋白集合,并采用基于支持向量机的递归特征消去算法选出与唾液分泌蛋白相关的特征属性,最后构建了唾液分泌蛋白的识别模型。通过该模型识别出的蛋白将是人类疾病的唾液诊断标志物的有力候选,,这将推动唾液诊断的进一步发展。最后,本文将改进的聚类算法和特征选择方法结合到唾液分泌蛋白识别的过程中,对训练集的选取和特征选择过程进行了优化,实验结果表明模型的准确率有了明显的升高。
【关键词】:机器学习 聚类 特征选择 唾液分泌蛋白识别
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q51;TP181
【目录】:
  • 提要4-5
  • 摘要5-7
  • Abstract7-13
  • 第1章 绪论13-15
  • 1.1 本文的研究目的和意义13
  • 1.2 本文的主要工作13-14
  • 1.3 本文的结构14-15
  • 第2章 相关技术与数据来源15-21
  • 2.1 机器学习与知识发现15-16
  • 2.1.1 机器学习15
  • 2.1.2 知识发现15-16
  • 2.1.3 机器学习与知识发现的关系16
  • 2.2 分类与聚类16-18
  • 2.2.1 分类17
  • 2.2.2 聚类17-18
  • 2.3 特征选择18-19
  • 2.3.1 特征选择的定义18
  • 2.3.2 特征选择的分类18-19
  • 2.3.3 评价函数19
  • 2.4 本文相关数据库介绍19-21
  • 第3章 凝结核聚类算法21-35
  • 3.1 研究背景21-22
  • 3.2 相关算法简介22-25
  • 3.2.1 支持向量聚类算法22-23
  • 3.2.2 k-均值算法23-24
  • 3.2.3 最小生成树聚类24-25
  • 3.2.4 判别分析方法25
  • 3.3 研究方法25-31
  • 3.3.1 方法概述25-26
  • 3.3.2 凝结核的形成与聚类分析26-28
  • 3.3.3 剩余样本的类划分28
  • 3.3.4 三种凝结核聚类方法28-29
  • 3.3.5 参数设置29-31
  • 3.4 实验结果31-33
  • 3.4.1 模拟数据集31-32
  • 3.4.2 鸢尾花 Iris 数据集32-33
  • 3.5 本章小结33-35
  • 第4章 基于局部样本的特征选择方法35-47
  • 4.1 研究背景35-36
  • 4.2 研究方法36-39
  • 4.2.1 方法概述36
  • 4.2.2 样本间距离的衡量标准36-38
  • 4.2.3 获取局部样本的方法38-39
  • 4.2.4 特征基因的获取39
  • 4.3 实验数据39-41
  • 4.3.1 数据集描述39-40
  • 4.3.2 数据预处理40-41
  • 4.4 实验结果41-45
  • 4.4.1 性能评价标准41
  • 4.4.2 癌症数据集的统计分析41-45
  • 4.5 本章小结45-47
  • 第5章 唾液分泌蛋白识别模型及其应用与改进47-71
  • 5.1 研究背景47-48
  • 5.2 研究方法48-51
  • 5.2.1 方法概述48-49
  • 5.2.2 特征选择方法49
  • 5.2.3 分类器的构建49-50
  • 5.2.4 基因表达数据分析方法50-51
  • 5.2.5 疾病标志物排名统计分析方法51
  • 5.3 实验数据51-56
  • 5.3.1 训练集合52
  • 5.3.2 蛋白质特征集合52-53
  • 5.3.3 两个蛋白质标志物集合53-55
  • 5.3.4 头颈部鳞癌的基因表达数据集合55-56
  • 5.4 实验结果56-65
  • 5.4.1 蛋白质特征选择56-57
  • 5.4.2 构建唾液分泌蛋白预测模型57-59
  • 5.4.3 人类蛋白质筛查实验59-60
  • 5.4.4 疾病的唾液标志物识别60-64
  • 5.4.5 头颈部鳞癌标志物预测64-65
  • 5.5 模型改进65-69
  • 5.5.1 负样本集的构建66-67
  • 5.5.2 基于局部样本的特征选择67
  • 5.5.3 实验结果67-69
  • 5.6 本章小结69-71
  • 第6章 结论与展望71-73
  • 参考文献73-79
  • 作者简介及在学期间所取得的科研成果79-81
  • 致谢81-82

【参考文献】

中国期刊全文数据库 前1条

1 吕常魁,姜澄宇,王宁生;一种支持向量聚类的快速算法[J];华南理工大学学报(自然科学版);2005年01期



本文编号:890026

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/890026.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户323dc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com