当前位置:主页 > 科技论文 > 计算机论文 >

面向海量金融数据并行加载技术研究与实现

发布时间:2017-10-29 01:05

  本文关键词:面向海量金融数据并行加载技术研究与实现


  更多相关文章: 海量金融数据 数据加载 并行加载 任务调度


【摘要】:随着互联网技术的快速发展,金融、通信、教育等行业对信息化的需求不断地增加。在国内,信息化发展已经有几十年,金融行业更是成为信息化程度最高的行业。随着用户的增长和业务的更新,金融行业数据库的数据量也不断地增长,其数据量高达几百TB甚至PB级。通常,金融企业需要大型数据库系统来存储和管理海量金融数据。同时由于业务需求,不同金融系统间需要大量的数据共享,因此不同系统间需要大量的数据迁移和加载。海量金融数据的存储和加载,给金融系统提出了严峻的挑战。本文主要针对海量金融数据的数据加载问题展开研究,并以一个实际金融系统作为研究对象,结合其底层数据存储架构及数据加载特点,设计和实现适用于该系统的海量数据加载方法。主要贡献如下:1.基于交通银行历史库系统,我们分析了历史库系统的海量数据存储和加载实现,其底层数据存储采用分布式数据库Ocean Base来解决海量数据存储的问题。通过分析历史库的数据加载特点,我们发现新存储架构下的历史库系统面临海量数据加载问题。为此,我们提出了两种解决思路。2.针对OceanBase数据加载的实现,我们设计和实现了两种加载方法:基于SQL INSERT的数据加载和直接更新内存表的数据加载。前者是一种常见的数据导入技术,主要通过并发执行插入SQL来实现数据导入。后者则根据OceanBase特有的存储架构,将数据加载问题转化为B+树的并发插入问题。这种加载方法只适用于OceanBase。相比于前者,该方法可以减少网络传输和事务处理量,从而提高加载效率。实验表明该加载方法较好地解决OceanBase数据加载问题。3.根据历史库系统的数据加载特点,为了提高整体的数据加载效率,我们提出一种多任务并行加载的方法。该方法将所有加载任务切分到多个加载服务器上,充分利用加载服务器和数据库系统的资源,使得加载任务并行运行于不同加载服务器上。4.为了获取更好的并行加载效率,我们提出了两种任务调度策略:基于表级任务调度和基于细粒度的两阶段任务调度。这两种调度策略分别基于不同的划分粒度,被应用于多任务并行加载过程中,使尽可能多的加载任务并行执行。实验表明,两阶段调度策略可以更充分地利用加载服务器资源,获取更好的加载效率。
【关键词】:海量金融数据 数据加载 并行加载 任务调度
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;TP333
【目录】:
  • 摘要6-8
  • Abstract8-14
  • 第一章 绪论14-18
  • 1.1 研究背景14-15
  • 1.2 研究现状15-16
  • 1.3 本文工作16-17
  • 1.4 本文结构17-18
  • 第二章 基本概念和相关技术18-28
  • 2.1 批量数据加载技术18-20
  • 2.2 并行任务调度技术20-24
  • 2.2.1 任务调度模型21-22
  • 2.2.2 相关任务调度策略22
  • 2.2.3 静态任务调度技术和算法22-24
  • 2.3 分布式数据库OceanBase架构24-26
  • 2.4 本章小结26-28
  • 第三章 问题描述28-36
  • 3.1 交通银行历史库系统概述28-29
  • 3.2 历史库的数据存储实现29-31
  • 3.3 历史库的数据加载实现31-34
  • 3.4 本章小结34-36
  • 第四章 OceanBase数据加载技术实现36-54
  • 4.1 ChunkServer旁路数据导入36-39
  • 4.1.1 基本思想36-37
  • 4.1.2 ChunkServer旁路导入实现37-39
  • 4.2 基于SQL INSERT加载技术39-42
  • 4.2.1 基本思想39-41
  • 4.2.2 详细设计41-42
  • 4.3 直接更新内存表加载技术42-47
  • 4.3.1 基本思想42-43
  • 4.3.2 详细设计43-47
  • 4.4 实验准备与结果分析47-53
  • 4.4.1 实验准备47-48
  • 4.4.2 实验结果与分析48-53
  • 4.5 本章小结53-54
  • 第五章 多任务并行加载设计与实现54-72
  • 5.1 多任务并行调度加载设计54-57
  • 5.1.1 可行性分析54-55
  • 5.1.2 多任务并行调度加载设计55-56
  • 5.1.3 任务并行度56-57
  • 5.2 任务模型及任务划分57-60
  • 5.2.1 任务模型57-59
  • 5.2.2 划分粒度59-60
  • 5.3 多任务并行调度实现60-66
  • 5.3.1 任务管理61
  • 5.3.2 任务调度61-66
  • 5.4 实验准备与结果66-71
  • 5.4.1 实验准备66-67
  • 5.4.2 实验结果与分析67-71
  • 5.5 本章小结71-72
  • 第六章 总结72-74
  • 参考文献74-82
  • 致谢82-84
  • 攻读硕士学位期间发表论文和科研情况84

【相似文献】

中国期刊全文数据库 前10条

1 王光;;几何操作的数据并行复现(英文)[J];西安文理学院学报(自然科学版);2009年04期

2 史英超;张发存;段敬红;;面向嵌入式应用的数据并行语言设计[J];计算机工程与应用;2011年04期

3 陈斯愈,黄林鹏,孙永强;一个数据并行语言的设计及其实现[J];计算机工程;1997年03期

4 韩天舒;胡铭曾;李晓明;方滨兴;;数据并行语言中的扩展结构[J];计算机科学;1998年03期

5 刘振英,方滨兴,张毅;数据并行语言中的任务并行[J];计算机工程与应用;1999年10期

6 李向宏,王丁,王鑫;数据并行问题的性能分析及优化[J];信息技术;2002年03期

7 王珏;胡长军;;数据并行中通信表内元素关系定理的证明[J];华中科技大学学报(自然科学版);2006年S1期

8 余华山,胡长军,黄其军,丁文魁,许卓群;一个用于数据并行语言计算划分的时序优化模型(英文)[J];软件学报;2001年10期

9 桂兵祥;何健;;基于高性能云的分布式数据并行处理机制[J];武汉工业学院学报;2010年01期

10 何连跃,沈志宇,赵克佳;数据并行语言编译系统的并行循环迭代分布算法[J];计算机工程与设计;1999年03期

中国重要会议论文全文数据库 前2条

1 陈庆奎;那丽春;;一个支持数据并行型计算的网格模型[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年

2 崔同云;陈庆奎;;一个网格并行计算实现方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年

中国博士学位论文全文数据库 前2条

1 肖天;数据并行程序正确性分析与网络流量优化[D];清华大学;2014年

2 王耀华;数据并行处理器中指令流出的协同性研究[D];国防科学技术大学;2013年

中国硕士学位论文全文数据库 前10条

1 赵满;地震数据并行访问策略的研究[D];东北石油大学;2013年

2 王馨梅;数据并行计算仿真的研究与实现[D];西安理工大学;2004年

3 梁玲玲;数据并行交换的长事务分配与调度模型[D];长春理工大学;2011年

4 朱斯圢;海量气象数据并行可视化框架[D];浙江大学;2013年

5 秦宜州;实时监控系统中基于多核并发的并行技术应用研究[D];东北大学;2012年

6 张元平;分布式XML数据并行更新及发布方法的研究[D];重庆大学;2007年

7 王仲刚;基于云计算的海量高铁噪声数据并行处理方法研究[D];西南交通大学;2013年

8 欧阳柳;地理栅格数据并行访问技术研究与实现[D];国防科学技术大学;2012年

9 杨帆;OpenProbe地震体数据并行渲染机制及实现[D];吉林大学;2015年

10 刘美飞;基于USB接口的多串口数据并行接收方法研究[D];西安工业大学;2012年



本文编号:1110708

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1110708.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d3fcf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com