Gzip-U:针对维吾尔语文本的压缩算法研究

发布时间:2018-02-01 19:28

  本文关键词: 移动互联网 维吾尔语 数据压缩 Gzip 出处:《新疆大学》2017年硕士论文 论文类型:学位论文


【摘要】:移动互联网的发展引导着终端设备承载的信息量的与日俱增,移动用户分享的数据量的增长与4G网络的普及量密切相关。消极方面来说,移动互联网的发展对网络数据的影响和有限的带宽成为数据传输的瓶颈。在海量数据的处理中数据压缩算法逐渐受到重视。数据压缩是在不影响得知有效信息的前提下,缩小数据占用空间,以便通信更快更节省资源。本文首先概述数据压缩在大数据时代中的重要意义,陈述了数据压缩的基本概念和方法来证实压缩的重要性。从数据压缩的历史探讨逐步引入属于无损压缩的文本压缩的基本思路和几个压缩算法。其次详尽分析维吾尔文字母在Unicode编码上的分布情况,根据维吾尔文的文本压缩现状更进一步提出了对维吾尔文本的压缩方法。为了方便理解提供的客户端开发中的部分核心代码,事先简单介绍Xcode开发环境,开发语言的特性,开发模式等基础知识。最后利用Http协议上的Gzip编码,核心内容用试验的方法对维吾尔语文本提出一种改进压缩算法,命名为:Gzip-U。其主要思想是首先把词语中的每个字母分解成独立字符后转换成Unicode表中的编码类型再与前缀06比较(维吾尔文文本06区),如果包含前缀为06那先去掉前缀再把整个数据类型拼接成数组。而有些符号因为与英文的符号编码一样,不能套一个流程编码和解码。论文最后在同样的数据上的实验表明,在Unicode编码中,与Gzip相比Gzip-U算法更有效,压缩比也提高3倍。
[Abstract]:The development of mobile Internet leads to the increasing amount of information carried by terminal devices. The increase of the amount of data shared by mobile users is closely related to the popularity of 4G networks. The influence of the development of the mobile internet on the network data and the limited bandwidth become the bottleneck of the data transmission. In the processing of the massive data, the data compression algorithm is paid more and more attention. The data compression does not affect the availability of information. On the premise. This paper first summarizes the significance of data compression in the big data era. This paper describes the basic concepts and methods of data compression to prove the importance of compression. From the history of data compression, the paper discusses the basic idea and several compression algorithms of text compression which belongs to lossless compression step by step. Secondly, the dimension is analyzed in detail. The distribution of my letters in Unicode codes. According to the current situation of Uygur text compression, this paper further proposes a compression method of Uighur text. In order to understand the client development provided in part of the core code. A brief introduction of the Xcode development environment, the characteristics of the development language, development patterns and other basic knowledge. Finally, the use of Gzip code on the Http protocol. This paper presents an improved compression algorithm for Uygur language text by experimental method. The main idea is to decompose each letter in a word into separate characters, then convert it to the encoding type in the Unicode table and compare it with the prefix 06. Uygur text 06). If it contains a prefix of 06, remove the prefix before splicing the entire data type into an array. Some symbols are encoded as symbols in English. Finally, experiments on the same data show that the Gzip-U algorithm is more efficient and the compression ratio is three times higher than that of Gzip in Unicode coding.
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 于莎莎;;高校档案馆移动服务趋势及策略研究[J];档案天地;2017年02期

2 张云鹏;;浅谈iOS系统的使用心得[J];通讯世界;2016年08期

3 胡辉;;IOS环境下使用MVC模式进行APP开发的设计思路探索[J];数字技术与应用;2015年06期

4 陈晓男;张海越;;NoSQL的分析与研究[J];科技创新导报;2015年10期

5 右舍;;摩尔定律面临挑战 转战移动赋新内涵[J];通信世界;2015年14期

6 林娜;;4G时代移动互联网的发展趋势[J];信息技术与信息化;2014年11期

7 杨海霞;杨冬英;;基于Map-Reduce的PageRank算法设计[J];电脑开发与应用;2014年09期

8 聂君;方之洋;;基于云计算的物联网融合开放技术架构研究[J];邮电设计技术;2014年01期

9 崔力升;;分布式文件系统的应用研究[J];科技视界;2014年02期

10 邓仲华;李志芳;;科学研究范式的演化——大数据时代的科学研究第四范式[J];情报资料工作;2013年04期

相关博士学位论文 前1条

1 于华楠;基于压缩传感的无线通信系统信道估计研究[D];吉林大学;2012年

相关硕士学位论文 前10条

1 宋立;iOS平台社交应用系统的设计与实现[D];北京交通大学;2014年

2 马海昌;基于大规模语料库的中文同义词抽取方法研究[D];西北师范大学;2014年

3 张伟;基于压缩感知框架的选择性重构方法[D];西安电子科技大学;2014年

4 高雅静;星载多光谱图像高效压缩技术研究[D];西安电子科技大学;2013年

5 张自强;基于内容的音频匹配研究[D];华东师范大学;2012年

6 顾晓宇;移动通信终端硬件设计研究[D];山东大学;2011年

7 陈粒;P2PARES协议缓存服务器的研究与实现[D];南京邮电大学;2011年

8 夏萍;数据压缩技术的研究[D];中北大学;2010年

9 陈宏旦;移动P2P网络中的基于DHT的分层Chord算法研究[D];重庆大学;2010年

10 郑桂凤;移动互联网的用户行为分析系统的设计与实现[D];北京邮电大学;2010年



本文编号:1482684

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1482684.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户316b9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com