卵巢癌蛋白质质谱数据分析模型研究
本文关键词:卵巢癌蛋白质质谱数据分析模型研究
更多相关文章: 质谱数据 峰值检测 局部最大搜索(LMS) 特征加权选择算法 Relief
【摘要】:癌组织在病理状态表达的蛋白质和肽丰度会出现异常变化,在特定癌症的肽表达中找到一组最佳的蛋白质或多肽标记物,可临床用于特定类型的癌症诊断分析。本文介绍了一种基于局部最大值搜索(LMS)峰值检测算法和Relief算法的新方法,在应用于MALDI-TOF低分辨率数据,可以更准确的实现分类判别。该方法包括局部最大值搜索(LMS)峰值检测算法,Relief特征选择算法和支持向量机的学习分类法。对低分辨率的卵巢癌数据集8-7-02而言,LMS算法经参数优化可以非常有效的用于峰值检测。在本数据集上Relief算法对LMS检测的峰值进行特征选择时体现出了良好的性能。至于学习分类器,支持向量机进行预测分类的测试精度,在识别癌症组和健康组时取得了满意的性能结果。LMS的最佳参数集是通过控制变量的方法实现的,取得了99.9738%的平均精确度(标准差为0.0018),在1000个独立的10折交叉验证中得到97.7437%的平均特异性(标准差为0.0109)。本文提出了一种新的特征加权选择算法,该算法通过求F-score算法和Relief算法的联合权重,实现了高分辨率的MALDI-TOF质谱数据更精确分类。我们归纳了数据处理的“四步走”战略:(1)原始质谱数据对齐后按一定距离等间距分组,(2)局部最大搜索峰值检测算法(LMS)进行峰值检测,(3)新的特征加权选择算法(FRW)用来进行特征选择,(4)支持向量机进行癌症组和健康组的分类甄别。LMS的最佳参数集也是通过控制变量的方法实现的,取得了97.4167%的平均精确度(标准差为0.0146),在1000个独立的10折交叉验证中得到最佳特异性为98.6111%。
【关键词】:质谱数据 峰值检测 局部最大搜索(LMS) 特征加权选择算法 Relief
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R737.31
【目录】:
- 摘要8-9
- ABSTRACT9-11
- 缩略词11-12
- 第一章 绪论12-20
- 1.1 基因突变与癌症发生12-14
- 1.2 卵巢癌现状与早期癌症诊断14-15
- 1.3 质谱分析模型研究的目的及意义15-17
- 1.4 论文的主要工作及结构17-20
- 1.4.1 论文的主要工作17-18
- 1.4.2 论文的结构18-20
- 第二章 低分辨率卵巢癌的数据分析20-36
- 2.1 实验数据集20
- 2.2 实验方法20-25
- 2.2.1 删除无效数据20-21
- 2.2.2 局部最大值搜索(LMS)峰值检测和量化21-22
- 2.2.3 特征选择算法22-24
- 2.2.4 支持向量机学习分类算法24-25
- 2.2.5 特征子集相似性分析和主成分分析25
- 2.3 实验结果25-34
- 2.3.1 LMS峰值检测和参数探究结果26-31
- 2.3.2 Relief算法与其他降维算法的比较31-32
- 2.3.3 特征子集相似性分析和主成分分析结果32-34
- 2.4 讨论34-36
- 第三章 高分辨率卵巢癌的数据分析36-48
- 3.1 实验数据集36
- 3.2 实验方法36-39
- 3.2.1 删除无效数据和等间距分组36-37
- 3.2.2 局部最大值搜索(LMS)峰值检测和量化37-38
- 3.2.3 特征选择算法38
- 3.2.4 F-score-Relief特征加权选择算法38-39
- 3.2.5 支持向量机学习分类算法39
- 3.2.6 特征子集相似性分析和主成分分析39
- 3.3 实验结果39-47
- 3.3.1 LMS峰值检测和参数探究结果40-41
- 3.3.2 FRW算法与其他算法的分类结果比较41-43
- 3.3.3 样本方差CV的限制和K-S检验算法降维结果43-45
- 3.3.4 特征子集相似性分析和主成分分析结果45-47
- 3.4 讨论47-48
- 第四章 总结与展望48-52
- 4.1 总结48-49
- 4.2 展望49-52
- 附录52-54
- 参考文献54-62
- 致谢62-64
- 攻读学位期间发表的学术论文64-66
- 学位论文评阅及答辩情况表66
【相似文献】
中国期刊全文数据库 前1条
1 王尧佳;祝磊;韩斌;厉力华;郑智国;牟瀚舟;;基于递归零空间线性判别分析算法的蛋白质质谱数据特征选择[J];航天医学与医学工程;2010年05期
中国重要会议论文全文数据库 前1条
1 孙瑞祥;付岩;张京芬;李德泉;王海鹏;蔡津津;王晓彪;曾嵘;贺思敏;高文;;蛋白质组质谱信息处理的关键算法研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
中国博士学位论文全文数据库 前2条
1 牛明;海量质谱数据深度解析新方法及其应用[D];中国人民解放军军事医学科学院;2012年
2 徐承建;质谱数据发掘与联用色谱分析方法及其在中药分析中的应用研究[D];中南大学;2003年
中国硕士学位论文全文数据库 前10条
1 潘超;面向复杂蛋白质组的非标记定量分析方法研究及其应用[D];浙江大学;2015年
2 杨秀忠;高维蛋白质质谱数据的分类方法对比研究[D];西南交通大学;2015年
3 崔丽丽;卵巢癌蛋白质质谱数据分析模型研究[D];山东大学;2016年
4 马海滨;质谱数据结构化存储及压缩问题研究[D];国防科学技术大学;2010年
5 杨冲;面向质谱数据的蛋白质直接鉴定系统设计与实现[D];湖南大学;2013年
6 杨锦瑜;质谱数据挖掘及中药色谱指纹图谱评价新方法[D];中南大学;2005年
7 贺权泽;动物毒素数据库的建立与质谱数据提取方法研究[D];湖南师范大学;2011年
8 柯激情;基于稀疏表示的蛋白质质谱数据分析[D];杭州电子科技大学;2012年
9 马婷婷;某些肿瘤蛋白组质谱数据的分析模型及其应用[D];浙江理工大学;2015年
10 张辉;离子阱串联质谱数据de novo分析方法与实现[D];国防科学技术大学;2006年
,本文编号:955831
本文链接:https://www.wllwen.com/yixuelunwen/zlx/955831.html