基于Context加权的基因组序列编码研究
发布时间:2020-10-26 03:56
随着基因组序列的高效压缩算法不断地涌现,各类利用序列内统计特性和重复特性来进行生物序列压缩的方法不断地被优化。其中,针对同源物种间DNA序列高度相似度的特点,利用目标序列去构造一个Context加权模型,将概率分布放入算术编码器编码以实现对DNA序列的压缩,所得的效果非常的显著。前面所有的研究都是在如何优化权值,却没有人去研究过这种加权算法中各个时刻的概率分布是否参与加权的选择上,所以针对前人对这一研究不足的情况,本文设计使用可选择的Context加权模型,根据描述长度增量来判断概率分布的相似性,再决定是否进行加权,最后得到我们的研究结果。首先,对我们经过处理之后所得的目标序列进行存储,留作待编码时去检索。我们需要考虑每个字符间的一个相关性特点,提出利用多组Context模型加权合并的办法来有效地减小码长,这里我们选用了一种均等权值的方式。然后对每个模型中概率分布的描述长度进行计算,然后利用描述长度增量与门限的关系,判断概率分布的相似性,若是相似,则采用加权的方法进行编码求码长,若是概率分布不相似,则选择其中信息熵最小的概率分布去编码,最后得到总的码长。进而统计门限不同情况下所对应求得的编码码长的值,进行分析。实验结果表明,通过描述长度去判断概率分布是否相似再选择性的去做Context加权可以对目标序列的压缩效率进行更好的改善,也就是可以有效的减小码长,无失真的压缩,其中一种模型下提高了千分之6的压缩效率。也就说明了在进行基因序列压缩的过程中,运用这样的方法可以提高我们的压缩效率。
【学位单位】:云南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:O157.4
【部分图文】:
图3-11三个相似的计数分布??这里我们根据前面的理论来简单说明一下计算码长的时候概率分布的问题,??
【参考文献】
本文编号:2856453
【学位单位】:云南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:O157.4
【部分图文】:
图3-11三个相似的计数分布??这里我们根据前面的理论来简单说明一下计算码长的时候概率分布的问题,??
【参考文献】
相关期刊论文 前2条
1 孟小峰;慈祥;;大数据管理:概念、技术与挑战[J];计算机研究与发展;2013年01期
2 谢雪英,孙啸,陆祖宏;卡方检验确定背景序列模型Markov chain的阶数(英文)[J];Journal of Southeast University(English Edition);2003年04期
本文编号:2856453
本文链接:https://www.wllwen.com/kejilunwen/yysx/2856453.html