分布式流计算平台计算节点的系统设计与实现
发布时间:2021-06-30 12:43
现今,随着互联网和物联网的不断发展,接入互联网的人群基数不断增大,接入物联网的设备剧增。在网络中,时时刻刻都有海量的数据流在动态的流动,而这些信息流中隐藏着很多对国防、科技、商业有用的信息,而很多高价值的信息,都具有很强的时效性,需要实时分析提取。处理这些海量的实时数据,需要高性能的分布式流式计算系统,通过输入数据流可以实时的从系统中获得分析结果。而分布式流式计算系统的计算节点的性能好坏将会直接影响消息处理的时延,因此低数据处理延时、高系统吞吐量则是分布式流式计算系统的核心指标。在此条件下,如何设计一个低延时、高吞吐并且具有良好的功能扩展性的计算节点框架,成为分布式流式计算系统的难点所在。本文主要完成以下方面创新和工作:1.以目前实验室自主研发的分布式流式计算平台的计算节点日常使用中,其计算节点高数据吞吐量和低消息处理延时不能同时满足的问题为背景。本文通过分析实时流式计算场景下,流式数据的特征、计算节点的消息收发方式和消息处理方式,提出了一个适合流式计算场景的计算节点框架。此框架优化了计算节点收发数据的方式和改进了数据的处理方式,从而升系统吞吐能力并降低了消息处理延时;2.数据流中的数...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:94 页
【学位级别】:硕士
【部分图文】:
多线程服务程序模型
电子科技大学硕士学位论文5.2 M:N 线程库 uthreadLib 测试为了测试 uthreadLib 的启动大量用户态轻量级线程用来并行计算的功能,设计一个 CPU 密集型计算的任务,分别用一个 pthread 线程执行 nworks 次计算任务和用 nworks 个用户态线程并行去计算任务。用 nmon 工具查看两种不同的计算模式,CPU 状态图如图5-8所示:
46464241434444SpoutSplit BoltCalc BoltMerge Bolt图 5-18 worker 间数据传输吞吐量测试 DAG由于 42 节点是整个系统中,数据的总出入口,因此我们观测 42 的网络吞吐量就可以得知整个系统的数据处理吞吐量。作为对比,下面将列出不同并发处理模式下 Worker 间数据传输的吞吐量对比,Worker 的版本分别有 one eventloop per thread 模式和本文提出的 uthread 改进版。其中 one eventloop per thread 模式指的是,一个 I/O 线程和若干 worker thread。I/O 线程只负责监听 tcp 连接,把建立的 tcp 连接负载均衡的分配给 worker thread,而 worker thread 中包含一个 epoll,为一个单独的 EventLoop。因此单个 workerthread 可以专门处理多路数据连接。
【参考文献】:
期刊论文
[1]大数据流式计算:关键技术及系统实例[J]. 孙大为,张广艳,郑纬民. 软件学报. 2014(04)
[2]网络大数据:现状与展望[J]. 王元卓,靳小龙,程学旗. 计算机学报. 2013(06)
[3]大数据背景下商务管理研究若干前沿课题[J]. 冯芷艳,郭迅华,曾大军,陈煜波,陈国青. 管理科学学报. 2013(01)
[4]大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 李国杰,程学旗. 中国科学院院刊. 2012(06)
[5]大数据分析——RDBMS与MapReduce的竞争与共生[J]. 覃雄派,王会举,杜小勇,王珊. 软件学报. 2012(01)
[6]基于EPOLL的单进程事件驱动通信服务器设计与分析[J]. 段翰聪,卢显良,宋杰. 计算机应用. 2004(10)
本文编号:3257764
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:94 页
【学位级别】:硕士
【部分图文】:
多线程服务程序模型
电子科技大学硕士学位论文5.2 M:N 线程库 uthreadLib 测试为了测试 uthreadLib 的启动大量用户态轻量级线程用来并行计算的功能,设计一个 CPU 密集型计算的任务,分别用一个 pthread 线程执行 nworks 次计算任务和用 nworks 个用户态线程并行去计算任务。用 nmon 工具查看两种不同的计算模式,CPU 状态图如图5-8所示:
46464241434444SpoutSplit BoltCalc BoltMerge Bolt图 5-18 worker 间数据传输吞吐量测试 DAG由于 42 节点是整个系统中,数据的总出入口,因此我们观测 42 的网络吞吐量就可以得知整个系统的数据处理吞吐量。作为对比,下面将列出不同并发处理模式下 Worker 间数据传输的吞吐量对比,Worker 的版本分别有 one eventloop per thread 模式和本文提出的 uthread 改进版。其中 one eventloop per thread 模式指的是,一个 I/O 线程和若干 worker thread。I/O 线程只负责监听 tcp 连接,把建立的 tcp 连接负载均衡的分配给 worker thread,而 worker thread 中包含一个 epoll,为一个单独的 EventLoop。因此单个 workerthread 可以专门处理多路数据连接。
【参考文献】:
期刊论文
[1]大数据流式计算:关键技术及系统实例[J]. 孙大为,张广艳,郑纬民. 软件学报. 2014(04)
[2]网络大数据:现状与展望[J]. 王元卓,靳小龙,程学旗. 计算机学报. 2013(06)
[3]大数据背景下商务管理研究若干前沿课题[J]. 冯芷艳,郭迅华,曾大军,陈煜波,陈国青. 管理科学学报. 2013(01)
[4]大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 李国杰,程学旗. 中国科学院院刊. 2012(06)
[5]大数据分析——RDBMS与MapReduce的竞争与共生[J]. 覃雄派,王会举,杜小勇,王珊. 软件学报. 2012(01)
[6]基于EPOLL的单进程事件驱动通信服务器设计与分析[J]. 段翰聪,卢显良,宋杰. 计算机应用. 2004(10)
本文编号:3257764
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3257764.html