基于大数据技术的EAST实验数据访问日志分析系统
发布时间:2021-07-27 06:28
随着我国自主研发的EAST(全超导托卡马克)装置实验不断地开展,产生的实验数据的总量日益增加。实验数据大部分都放在MDSplus中,目前MDSplus的数据总量已经达到PB级。为了方便实验人员对MDSplus服务器上的用户行为和实验数据进行规范管理,因此对MDSplus实验数据有效地监控是很有必要的。需要在现有的MDSplus服务器的基础上设计一个MDSplus实验数据访问日志分析系统,该系统主要包括日志完善模块,离线处理模块,实时处理模块,监控数据展示等模块。现有的MDSplus对数据的管理并不包含完善的日志信息。因此系统需要对MDSplus日志模块进行完善,对用户和数据的访问信息进行实时地记录,同时日志能够根据Logrotate机制按照时间进行切割转储。产生的大量日志信息需要及时地备份到云服务器上,并进行海量日志信息的离线计算,从而得到按照时间周期变化的用户行为和数据信息数据。离线的日志数据计算采用的是传统的大数据框架高可用的Hadoop技术。在实验过程中,单一的离线数据的计算不能提供及时的MDSplus服务器状态信息,包括但不限于服务器出入流量信息,据此信息可以进行判断服务器的负...
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
其有RA的H.doop架构
)?Channel??hannel是Agent中另一个重要的组成部分,可以从Source接收来的数存起来,达到缓冲的作用。接收来的数据可以用不同的数据格式存以存储到磁盘山也可以存到内存中,存储的周期和容量都可以自行el从抽象的层面来看,可以看成一个管道,这个管道是队列的管道。数据都依次在这个管道中进行排队,等待下游Sink进行数据的分发完全存储到新的位置,管道中相应的数据才会删除。这个过程是事务保证了数据传输的安全性和可靠性。??3)?Sink??ink作为下游数据的发送器,从Channel中提取数据,并将数据发送到置。新的存储位置可以是HDFS、HBASE、logger等,也可以自行为数据采集发送器,Flume具有强大的优势。首先Flume在收集数的数据达到了高峰时期,下游又来不及进行数据的处理,这时候Hu
图4.1所示,基于大数据技术的EAST实验数据访问日志分析系统的总体上分为EAST实验数据访问日志的完善、日志数据的采集及传输存储及处理平台、日志数据web展示四个大的部分。整个系统的架间耦合性不高,数据从采集到展示是全链路一站式处理。数据完善EAST存储服务器MDSplus上进行完善,采用钩子插件的方式对数,可以记录下所有MDSplus用户对数据服务器的详细访问情况。数输端,一方面利用Hnux脚本程序将离线日志定期上传到HDFS服一方面利用Flume对服务器日志文件进行监控,将监控到的日志数afka中。其中Kafka作为消息数据中间件,负贵负载均衡生产者和数据。Hadoop作为日志数据的存储和离线计算框架,按照规定好的月日进行日志数据的统计计算,然后将处理完的数据统一规范化到arkStreaming是整个系统架构中负责流数据计算的部分,能够在秒级服务器出入数据流量。Zeppelin和web都是数据浏览和展示工具。in可以快速访问HDFS和Mysql中的数据,快速生成数据图表。除此lin生成的数据图表还可以用url的方式嵌入到web中。??usem
【参考文献】:
期刊论文
[1]基于Spark Streaming的电力流式大数据分析架构及应用[J]. 田璐,齐林海,李青,王红,田世明,卜凡鹏. 电力信息与通信技术. 2019(02)
[2]基于大数据的ETL中的数据清洗方案研究[J]. 周瀚章,冯广,龚旭辉,曾虎,徐启东. 工业控制计算机. 2018(12)
[3]基于Kafka的分布式能效管理平台的设计与实现[J]. 朱幼普,卢军. 计算机与数字工程. 2018(12)
[4]EAST实验数据管理系统的设计与实现[J]. 王月婷,王华忠,王枫,刘鸿,章琦皓. 仪表技术. 2018(11)
[5]基于Zookeeper的配置管理中心设计与实现[J]. 苗凡,阎志远,戴琳琳. 铁路计算机应用. 2018(10)
[6]基于Spark SQL的分布式全文检索框架的设计与实现[J]. 崔光范,许利杰,刘杰,叶丹,钟华. 计算机科学. 2018(09)
[7]大数据时代信息获取技术研究——以阿里巴巴为例[J]. 丁铄彭. 电脑知识与技术. 2018(03)
[8]基于ECharts的数据可视化分析组件设计实现[J]. 王子毅,张春海. 微型机与应用. 2016(14)
[9]基于Flume、Kafka、Storm、HDFS的航空维修大数据系统[J]. 徐海荣,陈闵叶,张兴媛. 上海工程技术大学学报. 2015(04)
[10]基于Hadoop技术的数据查询平台建设[J]. 夏畅,孙恒超. 电信快报. 2014(12)
硕士论文
[1]EAST实验信息移动客户端的设计与开发[D]. 刘鸿.中国科学技术大学 2018
[2]基于Spark的高考推荐系统设计与实现[D]. 孟真.山东师范大学 2017
[3]基于Lambda架构的城市一卡通数据分析系统的研究与实现[D]. 王野.西安电子科技大学 2017
本文编号:3305272
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
其有RA的H.doop架构
)?Channel??hannel是Agent中另一个重要的组成部分,可以从Source接收来的数存起来,达到缓冲的作用。接收来的数据可以用不同的数据格式存以存储到磁盘山也可以存到内存中,存储的周期和容量都可以自行el从抽象的层面来看,可以看成一个管道,这个管道是队列的管道。数据都依次在这个管道中进行排队,等待下游Sink进行数据的分发完全存储到新的位置,管道中相应的数据才会删除。这个过程是事务保证了数据传输的安全性和可靠性。??3)?Sink??ink作为下游数据的发送器,从Channel中提取数据,并将数据发送到置。新的存储位置可以是HDFS、HBASE、logger等,也可以自行为数据采集发送器,Flume具有强大的优势。首先Flume在收集数的数据达到了高峰时期,下游又来不及进行数据的处理,这时候Hu
图4.1所示,基于大数据技术的EAST实验数据访问日志分析系统的总体上分为EAST实验数据访问日志的完善、日志数据的采集及传输存储及处理平台、日志数据web展示四个大的部分。整个系统的架间耦合性不高,数据从采集到展示是全链路一站式处理。数据完善EAST存储服务器MDSplus上进行完善,采用钩子插件的方式对数,可以记录下所有MDSplus用户对数据服务器的详细访问情况。数输端,一方面利用Hnux脚本程序将离线日志定期上传到HDFS服一方面利用Flume对服务器日志文件进行监控,将监控到的日志数afka中。其中Kafka作为消息数据中间件,负贵负载均衡生产者和数据。Hadoop作为日志数据的存储和离线计算框架,按照规定好的月日进行日志数据的统计计算,然后将处理完的数据统一规范化到arkStreaming是整个系统架构中负责流数据计算的部分,能够在秒级服务器出入数据流量。Zeppelin和web都是数据浏览和展示工具。in可以快速访问HDFS和Mysql中的数据,快速生成数据图表。除此lin生成的数据图表还可以用url的方式嵌入到web中。??usem
【参考文献】:
期刊论文
[1]基于Spark Streaming的电力流式大数据分析架构及应用[J]. 田璐,齐林海,李青,王红,田世明,卜凡鹏. 电力信息与通信技术. 2019(02)
[2]基于大数据的ETL中的数据清洗方案研究[J]. 周瀚章,冯广,龚旭辉,曾虎,徐启东. 工业控制计算机. 2018(12)
[3]基于Kafka的分布式能效管理平台的设计与实现[J]. 朱幼普,卢军. 计算机与数字工程. 2018(12)
[4]EAST实验数据管理系统的设计与实现[J]. 王月婷,王华忠,王枫,刘鸿,章琦皓. 仪表技术. 2018(11)
[5]基于Zookeeper的配置管理中心设计与实现[J]. 苗凡,阎志远,戴琳琳. 铁路计算机应用. 2018(10)
[6]基于Spark SQL的分布式全文检索框架的设计与实现[J]. 崔光范,许利杰,刘杰,叶丹,钟华. 计算机科学. 2018(09)
[7]大数据时代信息获取技术研究——以阿里巴巴为例[J]. 丁铄彭. 电脑知识与技术. 2018(03)
[8]基于ECharts的数据可视化分析组件设计实现[J]. 王子毅,张春海. 微型机与应用. 2016(14)
[9]基于Flume、Kafka、Storm、HDFS的航空维修大数据系统[J]. 徐海荣,陈闵叶,张兴媛. 上海工程技术大学学报. 2015(04)
[10]基于Hadoop技术的数据查询平台建设[J]. 夏畅,孙恒超. 电信快报. 2014(12)
硕士论文
[1]EAST实验信息移动客户端的设计与开发[D]. 刘鸿.中国科学技术大学 2018
[2]基于Spark的高考推荐系统设计与实现[D]. 孟真.山东师范大学 2017
[3]基于Lambda架构的城市一卡通数据分析系统的研究与实现[D]. 王野.西安电子科技大学 2017
本文编号:3305272
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3305272.html