当前位置:主页 > 医学论文 > 生物医学论文 >

基于蛋白质质谱的肿瘤生物标记物选择与分类

发布时间:2017-08-18 17:27

  本文关键词:基于蛋白质质谱的肿瘤生物标记物选择与分类


  更多相关文章: 肿瘤 蛋白质质谱 高维特征选择 方差分析 分类


【摘要】:蛋白质组学质谱技术是目前广泛应用的蛋白质研究技术之一,特别是在癌症的早期诊断和生物标记物识别方面。该方法产生的海量质谱数据需进一步分析才能实现对蛋白质的定性和定量研究。因此,以生物信息学方法研究质谱数据已成为关键。通过分析比较病例组和对照组细胞组织中的蛋白质提取物,能够发现在疾病病理中起重要作用的异常生物标记物,从而正确的分类病例组和对照组。肿瘤蛋白质质谱数据具有样本小、维数高、噪音大、非线性等特点,挖掘可信的蛋白质生物标记物对肿瘤早期诊断与揭示发病机理等意义重大。首先,本文从纵向与横向两个方向综合考虑特征(峰度值)在病例组与对照组中的强度值差异,具体地,视数据集为两因素混合水平实验,其中A因素为样本标签(包括病例组与对照组两个水平),B因素为特征(m个特征即m水平),应用非平衡双向方差分析发展了一种新的高维特征选择方法:基于F测验的最高得分特征子集(Top Score Feature Subset based on F test, TSFS-F),并提出一种新的分类方法:基于F值的直接分类(Direct Inference Classifier based of F-test, DIC-F)。其次,为了评价本文方法的有效性,参比了2个特征选择方法SVM-MRMR和SVM-SVMRFE:其中MRMR和SVMRFE仅能获得特征的重要性排序,无法给出具体的特征子集,因此结合SVM对训练集做10-fold交叉测试,以特征重要性排序逐个引入特征,再取交叉测试精度最高对应的前若干个特征为特征子集。2个肿瘤蛋白质质谱数据的10次重复实验结果表明:1)TSFS-F所选最优特征子集特征数少而稳定;2)在KNN、NB、SVM三个分类器上的独立预测精度均优于参比特征选择方法,并有效改善了SVM分类器的过拟合,是一种鲁棒的高维特征选择新方法;3)DIC-F和三个参比分类器比较,分类精度虽稍弱于SVM,但和TSFS-F配合的分类精度均高于其他特征选择方法和分类器的组合。T SFS-F和DIC-F在复杂疾病生物标记选择与分类等高维特征选择领域有广泛应用前景。
【关键词】:肿瘤 蛋白质质谱 高维特征选择 方差分析 分类
【学位授予单位】:湖南农业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:R730.4;Q811.4
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第一章 绪论9-24
  • 1 研究目的、意义及研究背景9-22
  • 1.1 蛋白质质谱数据预处理9-10
  • 1.2 特征选择10-13
  • 1.2.1 过滤法(Filter Method)11
  • 1.2.2 封装器法(Wrapper Method)11-12
  • 1.2.3 嵌入式方法(Embedded Method)12-13
  • 1.2.4 其他方法13
  • 1.3 分类13-20
  • 1.3.1 降维14-15
  • 1.3.2 常用分类器15-20
  • 1.4 蛋白质质谱数据分析的常用软件20-21
  • 1.4.1 R20-21
  • 1.4.2 Weka21
  • 1.5 总结21-22
  • 2 研究内容与创新点22-23
  • 2.1 主要研究内容22
  • 2.2 主要创新点22-23
  • 3 本文内容编排23-24
  • 第二章 特征选择方法与分类器24-37
  • 1 基于SVM的最小冗余最大相关特征选择方法25-29
  • 1.1 最小冗余特征选择25
  • 1.2 最小冗余判别函数25-29
  • 1.2.1 离散变量的最小冗余最大相关25-27
  • 1.2.2 连续变量的最小冗余最大相关27-29
  • 1.3 SVM-MRMR特征选择方法29
  • 2 基于SVM的SVMRFE特征选择方法29-33
  • 2.1 基于SVM的递归特征消除法30-33
  • 2.1.1 基于相关系数的特征排序30
  • 2.1.2 基于灵敏度分析的特征排序30-31
  • 2.1.3 递归特征消除法31
  • 2.1.4 SVMRFE特征选择方法31-33
  • 2.2 SVM-SVMRFE特征选择方法33
  • 3 基于F测验的最高得分特征选择算法33-36
  • 3.1 多个特征F值的定义34-35
  • 3.2 基于F值的最高得分特征子集35-36
  • 4 基于F值的直接分类36-37
  • 第三章 算法验证与结果分析37-48
  • 1 数据集37
  • 1.1 OvarianDataset4-3-02数据集37
  • 1.2 OvarianCD_PostQAQC数据集37
  • 2 数据预处理37-44
  • 2.1 数据加载38
  • 2.2 质谱数据的重采样38-39
  • 2.3 基线校正39-40
  • 2.4 谱峰对齐40-41
  • 2.5 标准化41
  • 2.6 谱峰提取与去噪41-42
  • 2.7 谱峰合并(Binning)42-44
  • 3 特征选择方法结果分析44-47
  • 3.1 不同特征选择方法在三个分类器上的独立预测精度44-45
  • 3.2 不同特征选择方法在SVM上的泛化性能45-46
  • 3.3 高频特征频次共现分析46-47
  • 4 分类器结果分析47-48
  • 第四章 结论与展望48-50
  • 参考文献50-58
  • 致谢58-59
  • 作者简历59

【共引文献】

中国期刊全文数据库 前10条

1 李岸达;何桢;何曙光;;基于Filter与Wrapper的复杂产品关键质量特性识别[J];工业工程与管理;2014年03期

2 YUAN Hanning;WANG Shuliang;LI Ying;FAN Jinghua;;Feature Selection with Data Field[J];Chinese Journal of Electronics;2014年04期

3 周敬东;李敏慧;周明刚;黄云朋;王焱清;;油茶果的模糊聚类色选算法[J];中国农机化学报;2015年04期

4 孔英会;张少明;;ReliefF-SVM RFE组合式特征选择人脸识别[J];计算机工程与应用;2013年11期

5 张瀚文;刘剑;张妙恬;孟国营;;一种基于投影的特征选择方法[J];工矿自动化;2014年01期

6 欧璐;于德介;;基于监督拉普拉斯分值和主元分析的滚动轴承故障诊断[J];机械工程学报;2014年05期

7 Fatemeh Azmandian;Ayse Yilmazer;Jennifer G.Dy;Javed A.Aslam;David R.Kaeli;;Harnessing the Power of GPUs to Speed Up Feature Selection for Outlier Detection[J];Journal of Computer Science & Technology;2014年03期

8 刘青凤;李红兰;;基于数据挖掘方法的风力涡轮机状态监测技术研究[J];计算机测量与控制;2014年05期

9 贺邓超;郝文宁;陈刚;靳大尉;;基于最小分类错误率和Parzen窗的降维方法[J];计算机工程与应用;2014年14期

10 谢娟英;谢维信;;基于特征子集区分度与支持向量机的特征选择算法[J];计算机学报;2014年08期

中国重要会议论文全文数据库 前1条

1 张逸石;王腾;张子刚;;Feature Selection for Classification Using Data Envelopment Analysis[A];第十一届全国博士生学术年会——信息技术与安全专题论文集[C];2013年

中国博士学位论文全文数据库 前10条

1 耿耀君;高通量数据特征选择算法研究[D];西安电子科技大学;2013年

2 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年

3 王锋;基于粒化机理的粗糙特征选择高效算法研究[D];山西大学;2013年

4 李文峰;基于主题模型的用户建模研究[D];北京邮电大学;2013年

5 潘巍巍;故障严重程度识别的有序分类特征分析方法[D];哈尔滨工业大学;2013年

6 应文豪;基于Parzen Window估计的分类与聚类方法及应用研究[D];江南大学;2013年

7 李丹;基于流聚类的网络业务识别关键技术研究[D];北京邮电大学;2013年

8 刘遵仁;多类型属性的邻域粗糙模型和约简算法的研究[D];上海大学;2013年

9 李劲松;数据挖掘方法在磷酸铝合成数据分析上的应用[D];东北师范大学;2013年

10 刘波;组稀疏子空间的大间隔特征选择[D];重庆大学;2013年

中国硕士学位论文全文数据库 前10条

1 黄莉莉;多标签学习中特征选择和分类问题的研究[D];安徽大学;2013年

2 张俊晓;多维贝叶斯分类器的研究[D];西安电子科技大学;2013年

3 张少明;实时视频监控人脸识别技术研究[D];华北电力大学;2013年

4 王新莹;最优特征选择算法在文本分类上的应用研究[D];电子科技大学;2013年

5 陶腾飞;基于多目标优化的多标签特征选择算法研究[D];南京师范大学;2013年

6 王鼎;基于相对熵和网格密度过滤的聚类算法研究[D];燕山大学;2013年

7 王吉松;基于最大权重独立集的特征选择方法研究[D];东北师范大学;2013年

8 陈培煜;基于肿瘤临床指标的多维时间序列分类建模的研究[D];北京工业大学;2013年

9 曹经纬;基于粗糙集的海量数据约简技术及应用研究[D];河北工业大学;2012年

10 于永兵;基于改进ESN的混沌时间序列预测方法的研究[D];辽宁科技大学;2012年



本文编号:695825

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/swyx/695825.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户77888***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com