面向海量数据处理领域的云计算及其关键技术研究
本文选题:海量数据处理 + 云计算 ; 参考:《南京理工大学》2013年博士论文
【摘要】:随着信息技术的飞速发展,在许多科学领域中,数据爆炸已成为一个突出的问题。海量数据在提供丰富信息,与扩大人们视野的同时,也带来了数据处理和存储等方面的难题,其主要表现在以下几个方面:不同信息系统中存在着大量异构数据源;数据缺乏统一的规范化组织方法;在某些领域,海量数据是以大量小文件形式存在,难以有效分析处理;此外,还需要解决海量数据的高效存储问题等。近年来,云计算技术的不断成熟和发展,为海量数据处理提供了一种新的有效方法。 本文以海量数据为研究对象,深入研究了云计算相关理论,并结合有关前沿思想,突破了云计算在海量数据处理中的若干关键技术,建立了一套行之有效的海量数据分析处理方法。本文的主要内容如下: (1)在已有云平台各自特点基础上,整合开源云平台用于处理和存储海量数据,建立了一种新的基于云计算环境的海量小文件处理模型C-MSFPM (Cloud computing-Massive Small Files Process Model)。该模型针对小文件处理的特点,通过基于MapReduce和特征向量减少的改进KNN算法的进行文件分类,建立文件索引机制,以及就近原则和权值相似度的文件合并算法,对海量小文件进行处理。 (2)在海量小文件处理模型C-MSFPM基础上,针对文件查询过程中的复杂处理及内容映射,构建了基于XML和多Value的改进MapReduce模型。该模型使用XML标记数据的内容、坐标、操作映射等信息。对于海量数据的复杂处理,内容映射的查询,通过XML标记及Map过程中的多Value处理,一次定位即可查询到与数据相关的所有信息,极大地提高了数据处理效率。在此基础上,针对海量PDF小文件的内容映射查询、排序,通过实验进行多组数据的对比,试验表明了模型的算法正确,性能可靠。对于基于云平台的车载信息数据处理,通过引进资源池策略,解决海量数据传输中的数据包丢失问题。 (3)针对云存储的问题,分析云存储中的协调机制和虚拟化,从虚拟节点的性能引伸出虚拟存储节点存储效率值的概念,并讨论了云存储机制和任务调度。提出基于改进遗传算法的存储任务分配机制和基于改进动态规划的云存储数据分配策略。这两种算法大幅提高了存储节点的利用率和优化了系统负载均衡。
[Abstract]:With the rapid development of information technology, data explosion has become a prominent problem in many fields of science. Mass data not only provides abundant information, but also brings problems in data processing and storage, while expanding people's vision. It mainly shows in the following aspects: there are a large number of heterogeneous data sources in different information systems; In some fields, the massive data is in the form of a large number of small files, it is difficult to effectively analyze and process, in addition, we also need to solve the problem of efficient storage of mass data. In recent years, cloud computing technology continues to mature and develop, which provides a new and effective method for mass data processing. This paper takes massive data as the research object, deeply studies the cloud computing related theory, and combines the related frontier thought, breaks through some key technologies of cloud computing in the massive data processing, A set of effective analysis and processing method for mass data is established. The main contents of this paper are as follows: (1) based on the existing cloud platform, the open source cloud platform is integrated to process and store massive data. A new cloud computing-passive small Files process model (C-MSFPM) is proposed in this paper. According to the characteristics of small file processing, this model classifies files based on MapReduce and feature vector reduction, establishes file index mechanism, and combines file merging algorithm based on proximity principle and weight similarity. (2) based on C-MSFPM, an improved MapReduce model based on XML and multi-value is constructed for the complex processing and content mapping in the process of file query. The model uses XML markup data content, coordinates, operational mapping and other information. For the complex processing of massive data and the query of content mapping, all the information related to the data can be queried at one time by XML markup and multi-value processing in Map process, which greatly improves the efficiency of data processing. On this basis, the content mapping query and sorting of mass PDF small files are carried out. The experiments show that the algorithm of the model is correct and the performance of the model is reliable. For vehicle information data processing based on cloud platform, the problem of data packet loss in mass data transmission is solved by introducing resource pool strategy. (3) aiming at the problem of cloud storage, the coordination mechanism and virtualization in cloud storage are analyzed. The concept of storage efficiency value of virtual storage node is derived from the performance of virtual node, and the cloud storage mechanism and task scheduling are discussed. A storage task allocation mechanism based on improved genetic algorithm and a cloud storage data allocation strategy based on improved dynamic programming are proposed. These two algorithms greatly improve the utilization of storage nodes and optimize system load balancing.
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP333
【参考文献】
相关期刊论文 前10条
1 陈晓华;李春芝;俞坚奇;;虚拟主机云存储系统整数规划模型及最优化分配算法[J];电信科学;2011年01期
2 李明栋;孟昱;胡捷;;云计算关键技术及标准化[J];电信网技术;2010年09期
3 庞丽萍,陈勇,吴松,肖侬;数据网格环境下的一种动态备份模型[J];华中科技大学学报(自然科学版);2004年04期
4 李文中 ,顾铁成 ,李春洪 ,陆桑璐 ,陈道蓄;GCaching——一种网格协同缓存系统[J];计算机研究与发展;2004年12期
5 郝秀兰;陶晓鹏;徐和祥;胡运发;;kNN文本分类器类偏斜问题的一种处理对策[J];计算机研究与发展;2009年01期
6 王鹏;孟丹;詹剑锋;涂碧波;;数据密集型计算编程模型研究进展[J];计算机研究与发展;2010年11期
7 徐小龙;吴家兴;杨庚;程春玲;王汝传;;基于大规模廉价计算平台的海量数据处理系统的研究[J];计算机应用研究;2012年02期
8 周敬利;周正达;;改进的云存储系统数据分布策略[J];计算机应用;2012年02期
9 张桂刚;李超;张勇;邢春晓;;一种基于海量信息处理的云存储模型研究[J];计算机研究与发展;2012年S1期
10 戴元顺;;云计算技术简述[J];信息通信技术;2010年02期
相关博士学位论文 前5条
1 龙柏;并行计算平台上的数据索引技术研究[D];中国科学技术大学;2011年
2 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年
3 曾志;云格环境下海量高分遥感影像资源与服务高效调配研究[D];浙江大学;2012年
4 陈海波;云计算平台可信性增强技术的研究[D];复旦大学;2008年
5 张东;中国互联网信息治理模式研究[D];中国人民大学;2010年
,本文编号:2077760
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2077760.html