桉树基因测序数据SNP的模式识别方法的研究
发布时间:2017-08-27 11:11
本文关键词:桉树基因测序数据SNP的模式识别方法的研究
更多相关文章: 单核苷酸多态性(SNP) InDel 数据处理 模式识别 系统构建
【摘要】:随着技术的发展,新一代测序技术已经兴起并广泛应用,但传统的PCR片段测序仍非常重要。单核苷酸多态性(single nucleotides polymorphism,SNP)和插入/缺失(insert/deletion,InDel)是新一代DNA分子标记技术,需要一种高效的算法进行验证分析。由于测序厂家提供的软件只能识别各序列位置的最高峰所对应的碱基,对于双峰位置的识别需要第三方软件。而第三方软件均需参考序列,具有局限性,不能有效用于一些序列的分析,并且操作上较为繁琐。因此,本研究运用模式识别方法构建了SNP和InDel自动检测系统,主要内容如下:1.通过传统测序文件格式提取出序列信号,分别运用Haar小波,Symlets小波,Coiflets小波以及ReverseBoir小波滤除杂峰信号,并对比了4种小波函数的滤波结果,为双峰碱基的可靠判读提供了高质量的序列。将去噪后的4种碱基数据融合成完整的桉树基因数据,并提取出波峰距离、高度比值以及起伏度比值作为SNP位点检测的特征参数。之后运用模糊推理器生成可供SNP位点分类器训练的测试数据。2.研究了SNP及InDel的检测算法。根据获取的训练数据,分别应用基于LM算法的BP神经网络、支持向量机以及稀疏识别分类器进行SNP位点检测,并对三种模式识别算法进行对比分析。运用了PrimeIndel算法及错位对应的数学算法进行InDel检测分析。3.采用LabWindows/CVI9.0以及MATLAB2012作为的桉树测序数据系统开发平台,并根据LabWindows/CVI以及MATLAB的混合编程原理,搭建了基于模式识别的二倍体个体内SNP及In Del多态性检测系统。系统集成了数据显示、人工调整以及数据存储等模块。4.本文采用桉树基因识别系统DiSNPIndel分别进行了SNP位点与InDel片段检测的准确性验证,并与现存常用软件进行了对比分析。实验证明,DiSNPIndel的SNP识别率为88.5%,高于novoSNP的1.5%及Mutation Sruveyor的17%。并且,DiSNPIndel检测InDel片段的识别率为53.1%,高于PrimeIndel(6.1%)、novoSNP(7.4%)以及Mutation Sruveyor(6.8%)。证实DiSNPIndel在检测无参考序列二倍体个体内SNP位点及InDel片段时,准确率优于其他软件。
【关键词】:单核苷酸多态性(SNP) InDel 数据处理 模式识别 系统构建
【学位授予单位】:华南农业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:S792.39;TP391.4;Q943.2
【目录】:
- 摘要3-4
- Abstract4-9
- 1 前言9-15
- 1.1 研究背景及意义9-10
- 1.1.1 研究背景9-10
- 1.1.2 研究意义10
- 1.2 国内外研究现状10-13
- 1.2.1 国内研究现状11
- 1.2.2 国外研究现状11-12
- 1.2.3 研究现状分析12-13
- 1.3 论文的主要研究内容和技术路线13-15
- 2 桉树碱基数据的处理15-27
- 2.1 碱基数据的获取15-16
- 2.1.1 测序文件格式15
- 2.1.2 测序数据的提取15-16
- 2.2 测序数据噪声的滤除16-20
- 2.2.1 小波分析介绍16-17
- 2.2.2 小波方法的运用17-19
- 2.2.3 噪声滤除过程19-20
- 2.2.4 实验对比结果20
- 2.3 桉树测序数据的合成20-22
- 2.3.1 四种碱基波峰的标注20-21
- 2.3.2 四条碱基数据信息融合21-22
- 2.4 碱基数据特征提取22-24
- 2.4.1 SNP位点的描述22-23
- 2.4.2 SNP特征提取23-24
- 2.5 测试数据的生成24-25
- 2.5.1 模糊推理原理24
- 2.5.2 模糊推理的运用24-25
- 2.5.3 SNP位点属性的确立25
- 2.6 本章小结25-27
- 3 SNP位点检测算法分析27-33
- 3.1 基于BP神经网络的SNP位点检测27-29
- 3.1.1 隐含层的确立27-28
- 3.1.2 误差调整算法的选择28
- 3.1.3 算法训练步骤28-29
- 3.1.4 BP网络分类器的构建29
- 3.2 基于支持向量机的SNP位点检测29-31
- 3.2.1 支持向量机的优势29-30
- 3.2.2 支持向量机核函数30
- 3.2.3 支持向量机分类器的构建30-31
- 3.3 基于稀疏识别的SNP位点检测31-32
- 3.3.1 稀疏表示理念31
- 3.3.2 基于稀疏表示的SNP检测31-32
- 3.4 各识别算法对比实验结果32
- 3.5 本章小结32-33
- 4 InDel检测33-37
- 4.1 基于无参考序列InDel检测33-36
- 4.1.1 PrimeIndel算法33-35
- 4.1.2 错位对应法35
- 4.1.3 综合两种算法35-36
- 4.2 本章小结36-37
- 5 单个测序文件中SNP和InDel自动检测系统的构建37-43
- 5.1 检测系统的软件实现37-39
- 5.1.1 开发平台37
- 5.1.2 运行环境37
- 5.1.3 CVI与MATLAB的数据通信37-38
- 5.1.4 系统功能与检测流程38-39
- 5.2 系统的界面设计39-42
- 5.2.1 主操作区40
- 5.2.2 原始峰图显示区40
- 5.2.3 SNP识别结果区40-41
- 5.2.4 人工校正区41
- 5.2.5 人工存储区41-42
- 5.3 本章小结42-43
- 6 各软件试验对比43-58
- 6.1 测序数据的说明及来源43
- 6.1.1 测序材料说明43
- 6.1.2 测序材料来源43
- 6.2 SNP位点检测与试验分析43-50
- 6.2.1 试验样本说明43
- 6.2.2 DiSNPIndel系统检测结果43-44
- 6.2.3 DiSNPIndel系统的SNP检测实例44-45
- 6.2.4 对比试验的结果与分析45-50
- 6.3 InDel片段检测与试验分析50-57
- 6.3.1 试验样本说明50-51
- 6.3.2 DiSNPIndel系统检测结果分析51
- 6.3.3 InDel检测实例分析51-52
- 6.3.4 无参考序列对比试验分析52-54
- 6.3.5 有参考序列对比试验分析54-57
- 6.4 本章小结57-58
- 7 结论与讨论58-61
- 7.1 主要工作总结58-59
- 7.2 结论59
- 7.3 讨论59-61
- 致谢61-62
- 参考文献62-65
- 附录A 攻读学位期间发表的学术论文65-66
- 附录B 部分程序代码66-69
【参考文献】
中国期刊全文数据库 前10条
1 唐立群;肖层林;王伟平;;SNP分子标记的研究及其应用进展[J];中国农学通报;2012年12期
2 陶珂;朱建军;;小波去噪质量评价方法的对比研究[J];大地测量与地球动力学;2012年02期
3 张娟;詹永照;毛启容;邹翔;;基于Gabor小波和稀疏表示的人脸表情识别[J];计算机工程;2012年06期
4 杨蜀秦;宁纪锋;何东健;;基于稀疏表示的大米品种识别[J];农业工程学报;2011年03期
5 顾亚祥;丁世飞;;支持向量机研究进展[J];计算机科学;2011年02期
6 章德宾;徐家鹏;许建军;李崇光;;基于监测数据和BP神经网络的食品安全预警模型[J];农业工程学报;2010年01期
7 李海东;李青;;基于阈值法的小波去噪算法研究[J];计算机技术与发展;2009年07期
8 李中伟;程丽;佟为明;;Symlets小波幅值算法研究[J];电力自动化设备;2009年03期
9 吕瑞玲;吴小凤;刘敏超;;分子标记技术及在水稻遗传研究中的应用[J];中国农学通报;2009年04期
10 朱璐瑛;贺鹏飞;周洋;;基于Coiflets正交小波的超宽带脉冲波形设计[J];现代电子技术;2008年23期
,本文编号:745389
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/745389.html
最近更新
教材专著