无损压缩文件的参数特性分析

发布时间：2020-11-22 03:23

　　对文本文件的无损压缩文件中参数进行统计和分析,统计了无损压缩文件中匹配长度、匹配距离和压缩比等参数的概率密度函数,并分析了这些参数对二次熵编码和无损压缩文件容错译码的作用。分类并定义了受损压缩文件中的错误类型,分析了不同错误对译文的破坏程度。分析了不同类型的错误传播的统计特性以及它们对译文的影响。最后比较受损压缩文件与未受损压缩文件的特性差异,为无损压缩文件容错译码的提供指导意义。
【部分图文】：

压缩编码

侄?被解压后得到的译文为解压字段。解压文件可以被表示成解压字段的形式:X=(xs，1，xs，2，…，xs，n)，(6)其中，xs，i表示第i个解压字段。1．2编码分类无损压缩编码可分为分组码和字典码两类。分组码是指不依赖前文而能译码的压缩码，如Huffman［7-8］码和Fano码等。字典码是指必须依靠前文作为字典才能完成译码的压缩码，如LZ77［9］和LZW［10］等。从码长是否相等的角度可以将无损压缩编码分为变长码和等长码。从是否采用字典的角度可以将无损压缩编码分为字典码和非字典码。如图1所示，LZ77属于等长码和字典码，Huffman码属于变长码和非字典码，Deflate32［11］和LZSS［12］属于变长码和字典码。图1压缩编码分类Fig．1Thetypesofcompressedcode1．3压缩文件的参数统计特性本节主要分析压缩比、匹配距离和匹配长度的统计特性。1)压缩比压缩比是反映压缩算法性能的重要指标。压缩比γc可以被定义为γc=LcLo，(7)其中，Lc是压缩文件长度，Lo是源文件长度。压缩比越小，压缩算法的性能就越高。实验中统计了Deflate32算法的原文件与压缩比的关系(图2)，其中横坐标是原文件长度，纵坐标为Deflate32算法的压缩比。原文件为英文的文本文件。实验中选择了1000个英文文本文件来计算压缩比，这些英文文本文件来自美国国家语料库。美国国家语料库可以在ANC官网上下载，此语料库包含了从1990年以来的新闻报道、小说、纪实文学和书信等各类文本，语料库的大小为7GB。从图2中可以看出，当原文件长度较小时，压缩比很高。随着原文件长度增加，压缩比下降。当原文件长度大于20KB时，压缩比基本不变。从图2中可以看出，只有当原文件长度足够大时，压缩算法的?

关系图,原文件,长度,关系图

76燕山大学学报2017图2原文件长度和压缩比的关系图Fig．2Therelationshipbetweentheoriginalfile’slengthandthecompressionratio2)匹配距离匹配距离是匹配字符串与被压缩字符串之间的距离。匹配距离的最小值是1字节，最大值是窗口长度。图3和图4分别是Deflate32文件和LZSS文件的匹配距离的概率密度图，其中横坐标是匹配距离(单位为字节)，纵坐标是概率密度。Deflate32算法和LZSS算法的窗口长度分别为32KB和4KB。实验中选择了100个长度在100KB到5MB之间的英文文本，分布用Deflate32算法和LZSS算法对它们进行压缩，并随机选择了50000个匹配距离进行统计。图3Deflate32文件的匹配距离的概率密度图Fig．3TheprobabilitydensityofmatchdistanceinDeflate32file从两幅图可以看出，当匹配距离小于100字节时，随着匹配距离的增大匹配距离的概率密度会减校当匹配距离大于100字节时，随着匹配距离增大，匹配距离的概率密度趋于平稳。不同窗口长度的匹配距离服从均匀分布，因此对匹配距离的二次熵编码的压缩效果是不明显的。匹配距离的概率密度函数接近于均匀分布这一事实反应了英文文本中的统计特性基本是平稳的。当英文单词之间的间隔足够大(两个单词之间相隔5～6个单词)时，英文单词之间的相关性与单词之间的距离是无关的。这一实验事实也说明:通过调整字典窗口长度是无法有效提高压缩率的，这也验证了字典长度为64KB的Deflate压缩编码方法的性能与字典长度为32KB的Deflate压缩编码方法的性能相比差别不大。图4LZSS文件的匹配距离的概率密度图Fig．4TheprobabilitydensityofmatchdistanceinLZSSfile3)匹配长度匹配长度是指字典码中匹配字符串的长度。图5和图6分别是Deflate32算法和LZSS算法的匹配长度的概率密度图，其

均匀分布,概率密度,LZSS算法,长度

叵低?Fig．2Therelationshipbetweentheoriginalfile’slengthandthecompressionratio2)匹配距离匹配距离是匹配字符串与被压缩字符串之间的距离。匹配距离的最小值是1字节，最大值是窗口长度。图3和图4分别是Deflate32文件和LZSS文件的匹配距离的概率密度图，其中横坐标是匹配距离(单位为字节)，纵坐标是概率密度。Deflate32算法和LZSS算法的窗口长度分别为32KB和4KB。实验中选择了100个长度在100KB到5MB之间的英文文本，分布用Deflate32算法和LZSS算法对它们进行压缩，并随机选择了50000个匹配距离进行统计。图3Deflate32文件的匹配距离的概率密度图Fig．3TheprobabilitydensityofmatchdistanceinDeflate32file从两幅图可以看出，当匹配距离小于100字节时，随着匹配距离的增大匹配距离的概率密度会减校当匹配距离大于100字节时，随着匹配距离增大，匹配距离的概率密度趋于平稳。不同窗口长度的匹配距离服从均匀分布，因此对匹配距离的二次熵编码的压缩效果是不明显的。匹配距离的概率密度函数接近于均匀分布这一事实反应了英文文本中的统计特性基本是平稳的。当英文单词之间的间隔足够大(两个单词之间相隔5～6个单词)时，英文单词之间的相关性与单词之间的距离是无关的。这一实验事实也说明:通过调整字典窗口长度是无法有效提高压缩率的，这也验证了字典长度为64KB的Deflate压缩编码方法的性能与字典长度为32KB的Deflate压缩编码方法的性能相比差别不大。图4LZSS文件的匹配距离的概率密度图Fig．4TheprobabilitydensityofmatchdistanceinLZSSfile3)匹配长度匹配长度是指字典码中匹配字符串的长度。图5和图6分别是Deflate32算法和LZSS算法的匹配长度的概率密度图，其中横坐标是匹配长度，纵坐标是概率密度。Defl
【相似文献】

相关期刊论文前10条

1 杜冰;朱张勤;叶中付;;一种二维光纤光谱数据的无损压缩方法[J];中国科学技术大学学报;2010年02期

2 魏琳;马大玮;余训锋;;一种基于感兴趣区域的图像近无损压缩方法[J];中国科技信息;2006年24期

3 杨成禹;何昕;魏仲慧;隋玉萍;朱运东;;实时数字图像无损压缩的研究[J];光学技术;2008年05期

4 罗坚;姜勇强;戴彩悌;;降水格点数据的无损压缩方法[J];气象与环境学报;2013年03期

5 唐艳娜;孙桂萍;孙华丽;徐俊;;基于预测的无损视频压缩技术[J];科技信息(学术研究);2008年18期

6 朱振宇,林侃,王建宇;成像光谱图像实时无损压缩方法研究[J];红外与毫米波学报;1998年01期

7 刘雄恩;黄晓阳;;一种离散色调图像无损压缩方法[J];厦门大学学报(自然科学版);2014年01期

8 谭继强;张立强;;一种DEM数据无损压缩的方法[J];地理信息世界;2010年02期

9 冯燕,何明一,魏江;基于神经网络的多光谱遥感图像无损压缩[J];遥感技术与应用;2004年01期

10 李进;金龙旭;李国宁;韩双丽;张然峰;;星上大视场TDICCD相机的多光谱图像无损压缩系统[J];发光学报;2013年04期

相关博士学位论文前1条

1 武晓玥;图像无损压缩及去噪技术研究[D];西安电子科技大学;2010年

相关硕士学位论文前10条

1 任改玲;基于预测的高光谱及极光光谱图像无损压缩[D];西安电子科技大学;2014年

2 杨雪;空间大面阵红外探测数据无损压缩系统的研究[D];中国科学院研究生院(上海技术物理研究所);2016年

3 李媛媛;陆地遥感卫星高光谱图像无损压缩研究[D];长春理工大学;2016年

4 张思思;基于FPGA的GZIP硬件压缩电路设计[D];西安电子科技大学;2016年

5 张习民;基于神经网络的医学图像无损压缩研究[D];太原科技大学;2011年

6 孙中柏;一种16位灰度图像无损压缩和解压缩方法[D];电子科技大学;2012年

7 冯希;几种图像无损压缩与编码方法的比较研究[D];中国科学院研究生院（西安光学精密机械研究所）;2008年

8 赵国毅;面向相似数据的无损压缩技术[D];东北大学;2011年

9 殷凯;卫星图像无损压缩检纠错编解码技术[D];华中科技大学;2012年

10 陈柯勋;基于DSP的数据实时无损压缩技术研究[D];中北大学;2010年

本文编号：2894031

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/yysx/2894031.html

上一篇：线性关系的单值扩张性和拓扑一致降指数
下一篇：平面图的在线列表染色

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|