基于CUDA的生物序列数据算术编码并行压缩
本文选题:算术编码 + 生物序列 ; 参考:《计算机应用与软件》2016年12期
【摘要】:随着下一代生物序列测序技术的发展,大文件生物序列数据越来越常见。虽然压缩序列数据能减少数据存储空间,但是传统的数据压缩的方法很难快速完成大规模的序列压缩,因此如何缩短数据压缩时间是当前压缩技术研究的一个重要方向。采用CUDA技术实现算术编码,分析核苷酸生物序列数据特性,给出不同物种及数据库生物序列数据集中核苷酸的分布概率,提出并比较三种并行压缩方法,指出先验概率的并行压缩方法具有更好的压缩性能。实验结果表明,先验概率的并行压缩方法不仅具有较高的时间效率,而且也能保持较高的数据压缩率,能较好地解决大规模生物序列文件的高效快速压缩问题。
[Abstract]:With the development of next generation biological sequence sequencing technology, large-file biological sequence data are becoming more and more common. Although the compression of sequence data can reduce the data storage space, it is difficult for the traditional data compression method to complete the large-scale data compression quickly. Therefore, how to shorten the time of data compression is an important research direction of the current compression technology. The arithmetic coding is realized by using CUDA technique, the characteristics of nucleotide biological sequence data are analyzed, the distribution probability of nucleotides in biological sequence data sets of different species and database is given, and three parallel compression methods are proposed and compared. It is pointed out that the parallel compression method with prior probability has better compression performance. The experimental results show that the parallel compression method based on priori probability not only has high time efficiency, but also can maintain a high data compression rate, and it can solve the problem of fast and efficient compression of large scale biological sequence files.
【作者单位】: 上海大学计算机工程与科学学院;上海众恒信息产业股份有限公司;
【基金】:国家自然科学基金重大研究计划项目(91330116) 教育部留学回国人员科研启动基金
【分类号】:Q811.4;TP301.6
【相似文献】
相关期刊论文 前10条
1 沈世镒;生物序列的语义分析与第二密码规则的探索[J];工程数学学报;2004年05期
2 李玉擰;生物序列的邻位约束比较方法[J];北京工业大学学报;2005年05期
3 谢惠民;生物序列分析中的若干数学方法[J];高校应用数学学报A辑(中文版);2005年04期
4 顾燕红,史定华,王翼飞;隐马氏模型在生物序列分析中的应用[J];自然杂志;2001年05期
5 沈世镒,余涛,开波,阮吉寿;生物序列的语义分析与第二密码规则的探索(续)[J];工程数学学报;2004年06期
6 T.P.Speed,史定华 ,王斌宾 ,顾燕红;生物序列分析[J];自然杂志;2002年05期
7 白凤兰;廖波;王天明;;拓扑指数在生物序列相似性比较中的应用[J];生物数学学报;2006年04期
8 郑珂晖;宁正元;王健;;基于正则表达式的生物序列检索方法[J];莆田学院学报;2009年05期
9 黄均才;王凤碧;周明天;;生物序列局部联配中的马赛克问题的一种解决方法[J];生物信息学;2006年03期
10 侯凤成;刘弘;;基于Q学习的生物序列比对方法[J];信息技术与信息化;2007年02期
相关会议论文 前3条
1 陈双平;郑浩然;王习书;王煦法;;生物序列的描述复杂性分析[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 张培源;肖轶;;以一个案例浅谈说明书对功能性限定的生物序列权利要求的支持[A];2014年中华全国专利代理人协会年会第五届知识产权论坛论文(第三部分)[C];2014年
3 邹小勇;李占潮;周漩;戴宗;;基于生物序列信息的功能预测研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
相关博士学位论文 前6条
1 邓伟;生物序列的相似性分析及k词模型研究[D];山东大学;2015年
2 常桂松;生物序列分析中若干概率模型研究及应用[D];大连理工大学;2011年
3 郭颖;生物序列的几何刻画及应用[D];大连理工大学;2008年
4 李昭;生物序列相似性比较算法的研究[D];中国科学院研究生院(计算技术研究所);2002年
5 沈一飞;生物序列数据比较与模体发现算法研究[D];中国科学技术大学;2006年
6 孙伟东;CUDA计算技术在生物序列数据处理中的应用研究[D];东北大学;2011年
相关硕士学位论文 前10条
1 华克儒;一个有保障的马氏相似性学习框架及其在生物序列分析中的应用[D];西北农林科技大学;2015年
2 汪挺松;曲率在生物序列相似性分析中的应用[D];大连理工大学;2007年
3 练智超;预测生物序列功能的自动方法研究[D];吉林大学;2008年
4 赵丽华;生物序列模式发现算法的研究[D];西安电子科技大学;2007年
5 邱伯仁;生物序列的索引研究及其应用[D];复旦大学;2009年
6 孙维洁;支持得分矩阵的近似查询处理技术研究[D];东北大学;2011年
7 李梅;基于DTW距离的生物序列相似性分析[D];大连交通大学;2010年
8 侯凤成;基于Q学习的生物序列比对方法[D];山东师范大学;2007年
9 张鑫鑫;生物序列数据K-mer频次统计与可视化研究[D];中国科学技术大学;2014年
10 郑元荣;生物序列及其索引的压缩存储技术的研究与实现[D];哈尔滨工业大学;2007年
,本文编号:1945112
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1945112.html