当前位置:主页 > 医学论文 > 肿瘤论文 >

卵巢癌蛋白质质谱数据分析模型研究

发布时间:2017-10-01 21:35

  本文关键词:卵巢癌蛋白质质谱数据分析模型研究


  更多相关文章: 质谱数据 峰值检测 局部最大搜索(LMS) 特征加权选择算法 Relief


【摘要】:癌组织在病理状态表达的蛋白质和肽丰度会出现异常变化,在特定癌症的肽表达中找到一组最佳的蛋白质或多肽标记物,可临床用于特定类型的癌症诊断分析。本文介绍了一种基于局部最大值搜索(LMS)峰值检测算法和Relief算法的新方法,在应用于MALDI-TOF低分辨率数据,可以更准确的实现分类判别。该方法包括局部最大值搜索(LMS)峰值检测算法,Relief特征选择算法和支持向量机的学习分类法。对低分辨率的卵巢癌数据集8-7-02而言,LMS算法经参数优化可以非常有效的用于峰值检测。在本数据集上Relief算法对LMS检测的峰值进行特征选择时体现出了良好的性能。至于学习分类器,支持向量机进行预测分类的测试精度,在识别癌症组和健康组时取得了满意的性能结果。LMS的最佳参数集是通过控制变量的方法实现的,取得了99.9738%的平均精确度(标准差为0.0018),在1000个独立的10折交叉验证中得到97.7437%的平均特异性(标准差为0.0109)。本文提出了一种新的特征加权选择算法,该算法通过求F-score算法和Relief算法的联合权重,实现了高分辨率的MALDI-TOF质谱数据更精确分类。我们归纳了数据处理的“四步走”战略:(1)原始质谱数据对齐后按一定距离等间距分组,(2)局部最大搜索峰值检测算法(LMS)进行峰值检测,(3)新的特征加权选择算法(FRW)用来进行特征选择,(4)支持向量机进行癌症组和健康组的分类甄别。LMS的最佳参数集也是通过控制变量的方法实现的,取得了97.4167%的平均精确度(标准差为0.0146),在1000个独立的10折交叉验证中得到最佳特异性为98.6111%。
【关键词】:质谱数据 峰值检测 局部最大搜索(LMS) 特征加权选择算法 Relief
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R737.31
【目录】:
  • 摘要8-9
  • ABSTRACT9-11
  • 缩略词11-12
  • 第一章 绪论12-20
  • 1.1 基因突变与癌症发生12-14
  • 1.2 卵巢癌现状与早期癌症诊断14-15
  • 1.3 质谱分析模型研究的目的及意义15-17
  • 1.4 论文的主要工作及结构17-20
  • 1.4.1 论文的主要工作17-18
  • 1.4.2 论文的结构18-20
  • 第二章 低分辨率卵巢癌的数据分析20-36
  • 2.1 实验数据集20
  • 2.2 实验方法20-25
  • 2.2.1 删除无效数据20-21
  • 2.2.2 局部最大值搜索(LMS)峰值检测和量化21-22
  • 2.2.3 特征选择算法22-24
  • 2.2.4 支持向量机学习分类算法24-25
  • 2.2.5 特征子集相似性分析和主成分分析25
  • 2.3 实验结果25-34
  • 2.3.1 LMS峰值检测和参数探究结果26-31
  • 2.3.2 Relief算法与其他降维算法的比较31-32
  • 2.3.3 特征子集相似性分析和主成分分析结果32-34
  • 2.4 讨论34-36
  • 第三章 高分辨率卵巢癌的数据分析36-48
  • 3.1 实验数据集36
  • 3.2 实验方法36-39
  • 3.2.1 删除无效数据和等间距分组36-37
  • 3.2.2 局部最大值搜索(LMS)峰值检测和量化37-38
  • 3.2.3 特征选择算法38
  • 3.2.4 F-score-Relief特征加权选择算法38-39
  • 3.2.5 支持向量机学习分类算法39
  • 3.2.6 特征子集相似性分析和主成分分析39
  • 3.3 实验结果39-47
  • 3.3.1 LMS峰值检测和参数探究结果40-41
  • 3.3.2 FRW算法与其他算法的分类结果比较41-43
  • 3.3.3 样本方差CV的限制和K-S检验算法降维结果43-45
  • 3.3.4 特征子集相似性分析和主成分分析结果45-47
  • 3.4 讨论47-48
  • 第四章 总结与展望48-52
  • 4.1 总结48-49
  • 4.2 展望49-52
  • 附录52-54
  • 参考文献54-62
  • 致谢62-64
  • 攻读学位期间发表的学术论文64-66
  • 学位论文评阅及答辩情况表66

【相似文献】

中国期刊全文数据库 前1条

1 王尧佳;祝磊;韩斌;厉力华;郑智国;牟瀚舟;;基于递归零空间线性判别分析算法的蛋白质质谱数据特征选择[J];航天医学与医学工程;2010年05期

中国重要会议论文全文数据库 前1条

1 孙瑞祥;付岩;张京芬;李德泉;王海鹏;蔡津津;王晓彪;曾嵘;贺思敏;高文;;蛋白质组质谱信息处理的关键算法研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年

中国博士学位论文全文数据库 前2条

1 牛明;海量质谱数据深度解析新方法及其应用[D];中国人民解放军军事医学科学院;2012年

2 徐承建;质谱数据发掘与联用色谱分析方法及其在中药分析中的应用研究[D];中南大学;2003年

中国硕士学位论文全文数据库 前10条

1 潘超;面向复杂蛋白质组的非标记定量分析方法研究及其应用[D];浙江大学;2015年

2 杨秀忠;高维蛋白质质谱数据的分类方法对比研究[D];西南交通大学;2015年

3 崔丽丽;卵巢癌蛋白质质谱数据分析模型研究[D];山东大学;2016年

4 马海滨;质谱数据结构化存储及压缩问题研究[D];国防科学技术大学;2010年

5 杨冲;面向质谱数据的蛋白质直接鉴定系统设计与实现[D];湖南大学;2013年

6 杨锦瑜;质谱数据挖掘及中药色谱指纹图谱评价新方法[D];中南大学;2005年

7 贺权泽;动物毒素数据库的建立与质谱数据提取方法研究[D];湖南师范大学;2011年

8 柯激情;基于稀疏表示的蛋白质质谱数据分析[D];杭州电子科技大学;2012年

9 马婷婷;某些肿瘤蛋白组质谱数据的分析模型及其应用[D];浙江理工大学;2015年

10 张辉;离子阱串联质谱数据de novo分析方法与实现[D];国防科学技术大学;2006年



本文编号:955831

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/zlx/955831.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a94ed***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com