当前位置:主页 > 理工论文 > 生物学论文 >

基于k-mer的统计量在生物序列分析中的应用

发布时间:2023-04-01 12:38
  生物序列分析中的基于k-mer的非比对统计算法作为对传统比对方法的补充和发展已逐渐成为生物信息学研究中的一个热点领域。非比对统计算法是将DNA或蛋白质的分子序列作为字(word)经过不同的组合形成集合,然后对字在不同序列中出现的频率进行统计,通过统计不同序列中k-mer的频率分布进而揭示生物序列之间的关联性。但是使用基于k-mer的统计量研究生物序列的准确性及计算速度成为当前研究的一个热点。我们首先研究了基于k-mer统计量的统计功效。k-mer统计主要特点是计算的时间复杂度和空间复杂度较低,特别适合于比较基因组学的研究,序列非比对统计法中基于k-mer统计的的算法有很多,D2S和D2*统计量在寻找顺式调控模块中的效果比较好,但其在寻找水平基因转移位点的效果则比较差,通过前人改进后的基于D2S和D2*的统计量TsumS与Tsum*被发现在寻找水平基因转移时有非常好的效果。我们通过对Tsum模型的进一步改进,加入覆盖率和碎片长度两个可调参数调整统计模型,探究各个参数和TsumS与Tsum*的统计功效之间的关系,并发现了TsumS与Tsum*的参数的有效调整范围,扩展了 TsumS与Tsu...

【文章页数】:72 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景和研究意义
    1.2 系统进化分析中序列比对的局限性和序列非比对的优越性
    1.3 基于k-mer的序列非比对统计法中的几种统计量
    1.4 基于k-mer 统计的软件 SeqDistK 的引入
    1.5 本章小结
第二章 基于k-mer的统计量的介绍
    2.1 D2统计量介绍
    2.2 D2系列统计量的介绍
    2.3 d2系列相异度介绍
    2.4 研究思路与本文结构
    2.5 本章小结
第三章 基于k-mer的统计模型Tsum在序列分析中的应用
    3.1 D2系列统计量及新统计模型Tsum的研究
    3.2 统计量Tsum
S和Tsum
*的介绍
    3.3 模型构建及统计功效(Power)
    3.4 基于k-mer统计的SeqPowerK软件
    3.5 模拟结果
        3.5.1 参数Tsum覆盖率对Power的影响
        3.5.2 参数k对Power的影响
        3.5.3 参数T对Power的影响
    3.6 本章小结
第四章 基于k-mer统计的SeqDistK软件开发
    4.1 当代序列非比对统计工具的应用
    4.2 k-mer频次统计流程
    4.3 SeqDistK在Windows操作系统中的界面与用法
    4.4 基于k-mer统计的软件SeqDistK在序列分析中的优势
    4.5 本章小结
第五章 SeqDistK在序列分析中的应用及验证
    5.1 16S rRNA基因
    5.2 系统进化树的构建方法
    5.3 Silva数据库及标准树的选择
    5.4 树的差异参数——对称差
    5.5 SeqDistK构建系统进化树的精度验证
    5.6 几种序列比对工具的介绍
    5.7 Linux系统下的SeqDistK
    5.8 SeqDistK的速度验证
    5.9 本章小结
结论
    总结
    展望
参考文献
附录
攻读硕士学位期间取得的研究成果
致谢
附件



本文编号:3777158

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3777158.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a5124***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com