基于web的大数据统计处理平台
发布时间:2020-09-25 19:18
随着硬件成本的降低,数据的存储量以及读写性能都得到很大的提升。同时,随着互联网以及各平台应用用户的不断增加,数据的产生量也在爆炸性的增长。目前大数据相关技术发展迅速,能够处理数据种类逐渐增多,数据结构也变得复杂,很多积累下来的大量数据都得以挖掘分析。本文主要叙述如何管理和计算半结构化的文本数据以及存储在数据库中的结构化数据。本文将所有的数据以文本文件的方式存储在分布式文件系统中,对数据进行冗余存储,这样可以提高数据的计算速度并可以防止数据丢失。本文选用Hadoop的HDFS,使用多台机器建立大数据处理集群,使用Hadoop软件统一进行管理。在使用时提供给操作者一个可视化的web界面。通过封装,用户可以通过界面操作完成整个数据处理的过程,包括数据上传、数据运算,结果查看。数据计算部分主要通过Hadoop的yarn、封装的MapReduce模型,并结合Hive SQL,实现简单的统计分析。运算内容主要为统计分析中常用的操作,如平均值,加权运算,缺失值处理等。运算结果展现部分主要引入百度开源前端组件Echarts,进行简单的配置项封装,可以使用户更加灵活的设置图表相关的配置项。可以将数据运算结果以商业报表(柱形图,饼形图,折线图等)的形式进行展示。本文将从大数据的集群环境,web平台的体系架构,需求分析、概要设计、详细设计等方面进行完整叙述,并展示部分项目核心代码和效果图。最后,将对整个工作及项目进行归纳总结,并指出可以优化的部分以及扩展开发的部分。目前,该项目已和上海联通等知名企业达成合作,运营良好。
【学位单位】:大连理工大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13;TP311.52
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 研究目标及内容
1.4 论文组织架构
2 相关技术与理论
2.1 系统开发结构
2.1.1 C/S体系结构
2.1.2 B/S体系结构
2.2 MVC模式
2.2.1 MVC模式的结构
2.2.2 MVC模式的特点
2.3 开发语言:JAVA
2.3.1 Java语言特性
2.3.2 J2EE架构
2.3.3 J2EE开发框架
2.4 MySQL5.5数据库
2.5 大数据处理框架
2.6 管理及自动构建工具:Maven
2.7 运行环境:Linux
3 系统需求分析
3.1 功能需求分析
3.2 性能需求分析
3.3 系统目标
4 系统设计
4.1 系统概要设计
4.2 系统详细设计
4.3 数据库设计
5 系统实现
5.1 系统运行环境
5.2 普通用户相关功能实现
5.2.1 用户注册/登录
5.2.2 数据源操作
5.2.3 数据流操作
5.2.4 运行结果查看
5.3 管理员用户相关功能实现
5.3.1 用户管理
5.3.2 数据源/数据流管理
5.3.3 权限管理
5.4 数据计算相关功能实现
5.4.1 数据清洗功能
5.4.2 统计运算功能
6 系统测试
6.1 软件测试概述
6.2 兼容性测试
6.3 测试方案
6.3.1 单元测试
6.3.2 集成测试
6.3.3 压力测试
6.4 测试用例
6.4.1 普通用户相关功能
6.4.2 管理员用户相关功能
6.5 测试结果
结论
参考文献
致谢
本文编号:2826957
【学位单位】:大连理工大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13;TP311.52
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 研究目标及内容
1.4 论文组织架构
2 相关技术与理论
2.1 系统开发结构
2.1.1 C/S体系结构
2.1.2 B/S体系结构
2.2 MVC模式
2.2.1 MVC模式的结构
2.2.2 MVC模式的特点
2.3 开发语言:JAVA
2.3.1 Java语言特性
2.3.2 J2EE架构
2.3.3 J2EE开发框架
2.4 MySQL5.5数据库
2.5 大数据处理框架
2.6 管理及自动构建工具:Maven
2.7 运行环境:Linux
3 系统需求分析
3.1 功能需求分析
3.2 性能需求分析
3.3 系统目标
4 系统设计
4.1 系统概要设计
4.2 系统详细设计
4.3 数据库设计
5 系统实现
5.1 系统运行环境
5.2 普通用户相关功能实现
5.2.1 用户注册/登录
5.2.2 数据源操作
5.2.3 数据流操作
5.2.4 运行结果查看
5.3 管理员用户相关功能实现
5.3.1 用户管理
5.3.2 数据源/数据流管理
5.3.3 权限管理
5.4 数据计算相关功能实现
5.4.1 数据清洗功能
5.4.2 统计运算功能
6 系统测试
6.1 软件测试概述
6.2 兼容性测试
6.3 测试方案
6.3.1 单元测试
6.3.2 集成测试
6.3.3 压力测试
6.4 测试用例
6.4.1 普通用户相关功能
6.4.2 管理员用户相关功能
6.5 测试结果
结论
参考文献
致谢
【参考文献】
相关期刊论文 前9条
1 陶雪娇;胡晓峰;刘洋;;大数据研究综述[J];系统仿真学报;2013年S1期
2 李国杰;程学旗;;大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J];中国科学院院刊;2012年06期
3 郝树魁;;Hadoop HDFS和MapReduce架构浅析[J];邮电设计技术;2012年07期
4 伍志聪;;MySQL数据库在中小型业务系统的应用[J];数字技术与应用;2011年11期
5 熊瑾,陶俊才;浏览器/服务器结构应用系统的研究与开发[J];计算机与现代化;2005年08期
6 任中方,张华,闫明松,陈世福;MVC模式研究的综述[J];计算机应用研究;2004年10期
7 刘慧,李玉忱,苏鹏;基于J2EE架构的分布式Web应用的研究[J];计算机应用研究;2003年09期
8 程虎;Java语言的特点[J];现代科学仪器;1997年02期
9 员巧云;程刚;;近年来我国数据挖掘研究综述[J];情报学报;2005年02期
本文编号:2826957
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2826957.html