当前位置:主页 > 管理论文 > 行政管理论文 >

大数据连接处理技术在电子政务环境下的优化与实现

发布时间:2020-07-28 10:36
【摘要】:随着互联网科技的迅速发展,电子政务已经在机关事业单位得到普遍应用,如何从政府所累积存储的庞大数据集中分析提取出有用信息供给决策人员使用并做出明智科学的决策受到领导的广泛重视。两表及多表的连接查询操作是大数据分析处理应用中必不可少的操作,但是连接操作又是数据分析处理中最耗费时间的操作,研究如何优化多数据集连接查询算法以提高数据分析处理效率很有意义。本文在了解并分析大数据相关方面已有理论成果和技术的基础上,结合实际项目背景以及具体项目需求,完成了电子政务环境下数据可视化分析系统的设计与实现,对系统中涉及的两表及多表等值连接查询效率问题进行了相应的优化研究。本文首先对目前使用的大数据处理技术从原理及使用场合进行了深入的比对分析,结合实际项目需求选择了hadoop处理技术作为设计实现数据可视化分析系统的核心技术。针对电子政务平台各部门数据不规范、分散、数据大等特点经过分析比对当前主流的数据集成工具最后选用Sqoop作为系统数据集成加载工具。Sqoop将数据加载到Hive中进行数据处理,处理之后的数据保存到HBase数据库中。数据的展示部分选用的性能稳定且对浏览器兼容性比较好的HighCharts,最后通过配置文件的设置将各部分集成并通过系统的定时任务对任务进行操作。针对可视化分析处理中遇到的两表及多表等值连接性能低的问题,本文提出了大数据环境下两表及多表等值连接算法优化方案。首先研究如何利用改进型Bloom Filter在map阶段高效过滤掉无关数据从而减少网络传输量,随后在已经过滤无关数据的基础上研究MapReduce中两表及多表的等值连接算法,最后通过相关实验数据验证所提算法的高效性。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:D63;TP311.13
【图文】:

内容方案,论文


昆明理工大学硕士学位论文相关技术设计并实现大数据可视化决策分析系统,并对系统中所涉及的连接查询算法进行过滤改进从而提高系统整体查询效率。本文结合具体的实际项目,针对多数据库环境下分散数据集成存储管理、数据连接查询处理算法优化、电子政务环境下可视化展示进行了一系列的研究分析,课题研究内容方案如图 1.1 所示。本文主要完成的工作包含以下几个方面:

体系结构图,体系结构


图 2.1 HDFS 体系结构图HDFS 采用 Master/slaver 结构,集群中一般含有一个 NameNode 主节点和多Slave 从节点[22]。NameNode 运行在主服务器上,管理着整个文件系统中的元信息及文件目录树,客户端可以通过访问 NameNode 提供的文件接口获取所元数据信息[23]。集群中的 DataNode 运行在 Slave 从节点上,提供了真实文据的存储服务。当客户端发出读写请求时,实际都是在 DataNode 上对信息操作。首先从 NameNode 获得数据块在 DataNode 上的相关位置信息,再到的 DataNode 节点上读取数据。)NameNode 工作机制如图 2.2 所示为 NameNode 的工作机制原理图。NameNode 是整个文件系统理节点,管理着整个文件系统中文件/目录的元信息和每个文件对应的数据表,这些信息以文件的形式保存在本地,文件包括:metadata:内存中的元数据。

工作原理图


图 2.2 Namenode 的工作原理图(2)DataNode 工作机制DataNode 提供了真实文件数据的存储服务,将 HDFS 中的文件数据存储在本地文件系统中,这些数据在本地是以块的形式存在单独的文件里。由于本地系统中无法有效地支持在单个目录下创建大量的文件,DataNode 进程会恰当的以自身的需求动态创建子目录及决定不同目录下适合的文件量,这样可能会使所有文件不在同一个目录下。当启动 DataNode 进程时,Hadoop 会首先扫描本地文件系统,生成对应的 HDFS 块列表,发送给 NameNode 主节点。DataNode 通过心跳检测机制与 NameNode 保持通信,定期向将自己当前的状态的信息汇报给NameNode,以便 NameNode 更好的对资源进行管理及调配[25]。2.2.2 MapReduce 框架MapReduce 是 Hadoop 中数据计算处理的核心部分,主要用于对体积庞大的数据集进行并行计算处理[26]。其基本原理是将需处理的大数据集按设置的大小切

【参考文献】

相关期刊论文 前8条

1 林子雨;李雨倩;李粲;赖永炫;;PipelineJoin:一种新的基于MapReduce的多表连接算法[J];中国科学技术大学学报;2015年10期

2 许耀桐;;决策公开是高端的政务公开[J];中国行政管理;2015年07期

3 宋杰;李甜甜;朱志良;鲍玉斌;于戈;;MapReduce连接查询的I/O代价研究[J];软件学报;2015年06期

4 胡龙;罗军;;基于MapReduce的混合连接算法[J];计算机与现代化;2015年06期

5 骆文亮;;绘图插件Highcharts浅析[J];科技视界;2014年12期

6 Li ZHAO;Chuanfu CHEN;;Understanding trust-related factors affecting citizen adoption of e-government services[J];Chinese Journal of Library and Information Science;2013年03期

7 罗恩韬;胡志刚;林华;;一种大数据时代海量数据抽取的开发模型研究[J];计算机应用研究;2013年11期

8 朱黎明;;初探经济效益审计在民营企业的开展[J];财经界(学术版);2009年10期

相关博士学位论文 前1条

1 张常淳;基于MapReduce的大数据连接算法的设计与优化[D];中国科学技术大学;2014年

相关硕士学位论文 前9条

1 岳明亮;基于Hadoop的多表连接操作查询优化关键技术研究[D];哈尔滨工业大学;2016年

2 李松;基于Hadoop的分布式网络爬虫研究[D];电子科技大学;2016年

3 柳陆;分布式内存数据库数据并行快速加载与索引技术[D];电子科技大学;2016年

4 陈慈;基于多核的Ramsey数算法研究[D];北京交通大学;2015年

5 张瑜;多源安全数据可视化关键技术研究与实现[D];重庆大学;2015年

6 马翠云;基于HBase的大规模数据存储解决方案的设计和实现[D];山东大学;2015年

7 孙菁霞;基于Bitmap的隐超点检测算法研究[D];大连海事大学;2013年

8 刘冲;MapReduce作业调度算法研究[D];哈尔滨工程大学;2013年

9 刘明刚;MapReduce故障容错研究与作业调度器优化[D];杭州电子科技大学;2013年



本文编号:2772760

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/zhengwuguanli/2772760.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户239f6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com