当前位置:主页 > 管理论文 > 移动网络论文 >

面向大数据处理的分布式机器学习算法编排系统的研究与实现

发布时间:2018-05-28 03:00

  本文选题:机器学习 + 分布式 ; 参考:《北京邮电大学》2017年硕士论文


【摘要】:计算机技术与互联网产业发展迅猛,数据量呈爆炸式的增长,我们进入了大数据时代。海量的数据中蕴含着大量的知识价值,机器学习作为一种可以从海量数据中提取有用信息的关键技术,它的学习成本和使用门槛都比较高。数据分析的业务人员需要具备统计学知识、数据建模能力、算法设计能力和编程能力,为了降低业务人员的使用门槛,我们需要一个通用性强、简单易用、性能优异的针对大数据的分布式处理工具,实现对数据的分析。本论文设计和实现了 一个分布式机器学习算法编排系统,该系统在分布式环境上给用户提供简单易用的机器学习服务,降低了机器学习算法的应用门槛,让用户不用通过编写程序的方式进行数据分析和预测,让用户通过Web界面的简单操作流畅直观的完成数据导入、数据解析、模型训练、预测等操作,通过良好的Web界面交互为开发人员、业务分析师提供了交互式的机器学习服务。本系统以OpenStack云平台作为底层环境,提供了弹性可扩展的计算资源和存储资源,通过Hadoop在云平台上搭建分布式集群,其中 YARN (Yet Another Resource Negotiator)框架提供了并行计算的能力,HDFS (Hadoop Distributed File System)保证了海量数据的存储,上层的Spark为需要迭代的机器学习算法提供了更高效的内存计算能力。在机器学习算法方面,本系统在数据处理层实现了核心算法模块,提供了机器学习领域分类、回归、聚类等经典算法。在算法编排方面,本系统在业务逻辑层实现了工作流管理模块,提供了工作流编排的业务逻辑。在表现层通过交互组件模块实现了用户与网页交互的全部接口。系统测试结果显示本系统能保证所有功能稳定运行,实现简单友好的算法编排操作。同时本系统的算法性能也达到了预期性能要求。
[Abstract]:With the rapid development of computer technology and Internet industry and the explosive growth of data volume, we have entered the era of big data. As a key technology to extract useful information from massive data, machine learning, which contains a lot of knowledge value, has a high learning cost and a high threshold of use. The business personnel of data analysis need to have the knowledge of statistics, the ability of data modeling, the ability of algorithm design and the ability of programming. In order to reduce the threshold of use of business people, we need a universal, simple and easy to use. Excellent performance for big data distributed processing tools to achieve data analysis. In this paper, a distributed machine learning algorithm arrangement system is designed and implemented. The system provides users with a simple and easy-to-use machine learning service in distributed environment, and reduces the threshold of application of machine learning algorithm. So that users do not have to write a program for data analysis and prediction, let users through the simple operation of the Web interface smooth and intuitive completion of data import, data analysis, model training, prediction and other operations, Through good Web interface interaction for developers, business analysts provide interactive machine learning services. The system takes the OpenStack cloud platform as the underlying environment, provides flexible scalable computing resources and storage resources, and builds a distributed cluster on the cloud platform through Hadoop. The YARN / Yet Another Resource Negotiator) framework provides the ability of parallel computing. HDFS / Hadoop Distributed File System) guarantees the storage of massive data, and the upper Spark provides a more efficient memory computing capability for the machine learning algorithm that needs iteration. In the aspect of machine learning algorithm, the system implements the core algorithm module in the data processing layer, and provides classical algorithms such as machine learning domain classification, regression, clustering and so on. In the aspect of algorithm arrangement, the workflow management module is implemented in the business logic layer, and the business logic of workflow orchestration is provided. The interface between user and web page is realized by interactive component module in presentation layer. The system test results show that the system can ensure the stable operation of all functions and achieve a simple and friendly algorithm layout operation. At the same time, the algorithm performance of the system also meets the expected performance requirements.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.09;TP311.13;TP181

【相似文献】

相关期刊论文 前10条

1 王晓;;大数据环境下机器学习算法趋势研究[J];哈尔滨师范大学自然科学学报;2013年04期

2 辛宪会;叶秋果;滕惠忠;郭思海;李军;张靓;韩晓宏;;小样本机器学习算法的特性分析与应用[J];海洋测绘;2007年03期

3 何清;李宁;罗文娟;史忠植;;大数据下的机器学习算法综述[J];模式识别与人工智能;2014年04期

4 王继成;基于认知模拟的自适应机器学习算法研究[J];软件学报;2001年08期

5 刘永定;阳爱民;周序生;邹豪杰;;使用机器学习算法分类P2P流量的方法[J];计算机应用研究;2009年09期

6 吴秀清,韩彬斌;基于Bayes算法的Web网页识别[J];计算机工程;2000年03期

7 陶卿;姚穗;范劲松;方廷健;;一种新的机器学习算法:Support Vector Machines[J];模式识别与人工智能;2000年03期

8 A N.Meltzoff;P K.Kuhl;J Movellan;T J.Sejnowski;冯锐;缪茜惠;;新学习科学的基础[J];远程教育杂志;2011年01期

9 张宏莉;鲁刚;;分类不平衡协议流的机器学习算法评估与比较[J];软件学报;2012年06期

10 张栋;柯长青;余瞰;;机器学习算法在ALOS影像分类中的应用研究[J];遥感信息;2010年03期

相关会议论文 前10条

1 何晏成;关毅;岳淑珍;;一个基于免疫机制的在线机器学习算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 常群;王海洋;;基于长短事务分离的工作流事务模型[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 马帅;王海洋;王文;;事务工作流及其错误处理策略[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

4 刘庆;刘英博;王建民;;基于工作流日志的层次化角色挖掘[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年

5 袁征;肖宇;;基于事例处理的工程项目工作流管理[A];土木建筑学术文库(第12卷)[C];2009年

6 王飞;李郴;薛清龙;胡晓鑫;;基于工作流技术的银行影像系统的研究和开发[A];煤矿自动化与信息化——第19届全国煤矿自动化与信息化学术会议暨中国矿业大学(北京)百年校庆学术会议论文集[C];2009年

7 刘建勋;陈海燕;;工作流管理系统中基于组织结构约束的授权研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年

8 魏连;许榕生;;基于工作流技术的手机取证系统的设计与实现[A];第13届全国计算机、网络在现代科学技术领域的应用学术会议论文集[C];2007年

9 寿志勤;李乐明;崇大志;;一个面向政务流程的工作流管理系统分析与构建[A];中国行政管理学会2005年年会暨“政府行政能力建设与构建和谐社会”研讨会论文集[C];2005年

10 邹盟军;黄炜;;基于组件的工作流管理平台的设计与实现[A];广东省电机工程学会2003-2004年度优秀论文集[C];2005年

相关重要报纸文章 前10条

1 何进伟;还工作流管理一个说法[N];中国计算机报;2003年

2 徐昊;工作流是下一个“金矿”[N];中国计算机报;2003年

3 ;《工作流管理——模型、方法和系统》出版[N];中华读书报;2004年

4 胡长城;工作流:国内国际两极分化[N];计算机世界;2007年

5 工作流资深专家 游青华;如何选择一个适合的工作流平台[N];中国计算机报;2007年

6 刘喜喜;超越工作流管理[N];中国计算机报;2006年

7 ;北京商能 实现电子化工作流体系[N];中国计算机报;2009年

8 刘锬;Lotus Domino/Notes工作流在办公自动化中的应用[N];计算机世界;2005年

9 蒋明炜 戴宝纯 吴英;工作流管理使企业系统实现集成[N];中国乡镇企业报;2004年

10 沈建苗 编译;基于Spring创建工作流引擎[N];计算机世界;2006年

相关博士学位论文 前6条

1 骈聪;基于机器学习算法的非编码RNA识别[D];南京农业大学;2016年

2 沈虹;多约束复杂工作流的调度优化[D];东南大学;2016年

3 姚光顺;面向工作流任务的云计算资源多目标与容错调度研究[D];东华大学;2016年

4 王朝霞;数据感知工作流的建模与验证[D];清华大学;2012年

5 卢伟倬;建设项目工作流精益管理研究[D];哈尔滨工业大学;2008年

6 杨晓辉;基于服务组织的开放Agent社会研究[D];天津大学;2012年

相关硕士学位论文 前10条

1 何昱泽;面向大数据处理的分布式机器学习算法编排系统的研究与实现[D];北京邮电大学;2017年

2 张春迎;机器学习算法在不同领域数据分析中的应用[D];天津大学;2014年

3 袁方方;基于云平台的机器学习算法并行化研究与应用[D];内蒙古师范大学;2016年

4 贾鑫;面向函数型数据分析的机器学习算法研究与应用[D];北京化工大学;2016年

5 张泽;机器学习算法及其工程应用研究[D];天津大学;2012年

6 班瑞;基于语义Web的机器学习算法研究与应用[D];南京理工大学;2006年

7 叶雷;机器学习算法在医疗数据分析中的应用[D];华中师范大学;2017年

8 朱熙文;大数据下的在线机器学习算法研究与应用[D];西南交通大学;2017年

9 张予焓;产品评价对象的提取与分析[D];北京邮电大学;2010年

10 刘永定;基于机器学习算法的P2P流量分类研究[D];湖南工业大学;2009年



本文编号:1944958

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1944958.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户48907***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com