当前位置:主页 > 文艺论文 > 广告艺术论文 >

分布式数据仓库查询模块的设计与实现

发布时间:2019-09-21 20:42
【摘要】:随着信息化水平的逐渐提高,数据的重要性得到了各个行业特别是互联网公司的重视。对数据的提取、分析、挖掘为互联网企业决策提供了重要依据,同时使企业对市场的细分更为精确,能够更准确的为客户定制服务,使企业与客户的利益最大化。“广告投放”已经成为互联网行业重要的吸金与服务方式之一,互联网对广告数据的重视程度也达到了空前的高度。目前,由于互联网用户激增,大型搜索网站每日产生的广告数据可以达到100G级甚至T级,在如此海量的数据面前要对新旧数据的及时查询与分析,传统的数据库或数据仓库无法满足。在此背景下,公司决定开发分布式数据仓库系统来对当前的迫切需求进行支持。 该分布式数据仓库系统使用C++语言开发,利用分布式系统进行海量数据的存储,设计数据分布式存储结构,利用自动分区和物化视图等方法提高查询效率。根据不同的功能需求,系统划分为调度模块、元数据管理模块、数据导入模块、查询模块和数据存储模块。调度模块实现对各个模块的调度及监控功能;数据导入模块支持对大数据的批量导入及数据恢复,同时生成对应的物化视图以提高查询效率。元数据管理模块通过对Hadoop子项目Zookeeper系统的封装,完成对系统数据的安全存储并支持实时查询。查询模块为多种查询方式提供接口、生成查询计划、执行查询过程、返回查询结果。数据存储模块主要负责对海量数据进行分布式存储。本人主要负责查询模块的设计与开发:设计查询模块的层次架构制定查询副本选择策略、设计与实现查询计划的生成方式、实现各种查询方式的接口、设计实现查询模块的异常处理机制等。通过完成对查询模块的设计与开发,使该分布式数据仓库系统能够实现对数据高效、安全、稳定的查询。 目前,该项目已经正式发布系统3.0版,每天有T数量级的新增数据,查询耗时在毫秒级,为公司各大商业项目提供在线报表服务,使公司能够及时掌握用户数据动态,为高层提供分析、策划的依据。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP311.13;TP311.52

【参考文献】

相关期刊论文 前6条

1 刘卫东;论我国互联网的发展及其潜在空间影响[J];地理研究;2002年03期

2 王文武;赵卫东;王志成;陈悦;韩下林;;高性能服务器底层网络通信模块的设计方法[J];计算机工程;2009年03期

3 杨光,张雷,艾波;数据仓库及联机分析处理技术[J];计算机工程与科学;2000年01期

4 王春花,黄厚宽;分布式数据仓库技术[J];计算机应用;1999年S1期

5 张素萍;浅论基于数据仓库的决策支持系统[J];计算机应用研究;1999年05期

6 钱迎进;肖侬;金士尧;;大规模集群中一种自适应可扩展的RPC超时机制[J];软件学报;2010年12期

相关硕士学位论文 前4条

1 张琳;邮政客户关系管理系统的设计与实现[D];西安电子科技大学;2009年

2 陈丽君;基于应用协议解析的分布式网络入侵检测系统研究[D];北京服装学院;2012年

3 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年

4 刘志明;基于工作流技术的项目管理系统设计与实现[D];湖南大学;2009年



本文编号:2539562

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2539562.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1f9db***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com