当前位置:主页 > 科技论文 > 搜索引擎论文 >

支持多源大数据的机器学习云平台

发布时间:2020-08-27 14:56
【摘要】:随着机器学习的不断发展,众多机器学习框架源源不断出现降低了计算机从业人员的学习成本,能够帮助完成许多数据分析的任务。但是,机器学习依然需要系统的专业技能,搭建一个机器学习系统存在诸多困难:1)数据量大且结构复杂,处理困难;2)数据源存在各种不同的行业背景,因此各行业与计算机行业存在很大的专业差异;3)机器学习的模型和模型超级参数没有科学化方法进行选择和调节,完全凭借人工调试。针对以上的三个问题,我们搭建了支持多源大数据的云平台,云平台能够提供简单的接口和应用以能够消除计算机从业人员与其他行业数据专家的技术屏障,既可以帮助非计算机从业人员也能够轻松进行数据分析,同时也可以帮助专业的从业人员预先全面了解数据并自动选择模型和调节超参。平台提供了一站式对大数据的处理和分析,其中包括了 1)利用分布式数据处理引擎,通过对不同数据源结构的分析,以及对目前机器学习领域主流的数据处理方法的抽象,自动化了多源大数据的切片和处理,从而达到快速处理结构复杂的大数据问题;2)通过对对目前机器学习领域的各类机器学习框架的一体化集成,并综合考虑各类框架优秀的设计思想,将其进行多层次、多语言、多模块化的抽象,使得大大降低各类框架的运用门槛的同时不丧失其强大的算法处理能力,从而大大简化机器学习工具以方便非计算机人员使用它们;3)设计并实现了自动化监督性机器学习算法,通过综合遗传算法进行模型自动化选择以及贝叶斯优化器进行超参解空间快速搜索,大大降低整个机器学习流程空间搜索的时间复杂度,而遗传算法和贝叶斯优化器的配合能够进一步保证搜索的独立性,从而能够保证局部最优解和全局最优解的平衡。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181
【图文】:

构成图,分布式系统,控制单元,构成图


一个分布式系统还能被描述为下列公式构成(来自Enslow的模型)[7]:逡逑分布式系统=分布式硬件+分布式控制+分布式数据逡逑在图2-1中展示了邋Enslow关于分布式系统的三维模型,其中的每个坐标代逡逑表了关于分布式系统不同的维度(硬件,控制和数据),而关于这三个维度还有下逡逑列详细的说明:逡逑分布式系统允许范围逡逑jf邋M'邋?邋 ̄邋Yi""邋 ̄邋|逦?邋1-1-1-邋u邋1逦■逡逑—逦逡逑H5逦N邋1逦[:丨:逡逑H4逦J逦丨":逡逑H3逦???逡逑H2逦y逡逑H1逦F逡逑逦l邋i邋I邋I邋l逦D6逡逑C1邋C2邋C3邋C4逦C5邋C6邋01逡逑图2-1分布式系统构成图逡逑硬件(Hardware,简称H)包括以下几种类别:HI.拥有一个控制单元的单逡逑CPU机器;H2.拥有一个控制单元的拥有多个ALU邋(逻辑计算单元)的单CPU机逡逑器;H3.拥有个浮点运算处理器的单CPU机器;H4.多处理器多CPU但只拥逡逑5逡逑

结构图,结构图,分布式文件系统,独立计算机


?逦松耦合:即系统与系统,服务与服务之间都应该互相独立,这样的好处逡逑是能够尽量减少模块与模块的关系。逡逑图2-2展示了邋SOA的组成成分,从图中可以看出,SOA主要分为了逡逑Infrastructure邋(基础构建),Processes邋(程序集)和邋Architecture邋(架构),其中程逡逑序集又分为元程序和主控这两个部分。逡逑r邋n邋1逦1邋r邋n逡逑Infrastructure逦Processes逦Architecture逡逑l逦l逦i逦i逡逑Metaprocess邋Governance逡逑i逦j逦i逦i逡逑图2-2邋SOA结构图逡逑2.3分布式文件系统逡逑分布式文件系统(Distributed邋Rle邋System,DFS)是典型的邋C/S(Client/Server,逡逑即用户端/服务器)应用,其允许客户端对数据进行增删查改。关于分布式系统内逡逑部其实是将统一的数据分别存储在分布式集群(多台独立计算机)中。分布式文逡逑件系统与本地文件系统相比,拥有了其无法具备的数据备份、数据安全、存储量逡逑7逡逑

架构图,分布式文件系统,架构


士学位论文逦第2章相关理论和技术介众多优点。逡逑分布式存储,与传统网格存储比起来,其分散扁平的架构模式,便向的扩展,也可以切分存储,提升数据访问量等。逡逑2-3所示,对于常见的DFS架构,包含以下几个部分:逡逑客户端(Client):邋DFS的适用对象,可以对数据进行增删查改的动跟踪器(Tracker):邋Tracker是DFS的协调者,负责管理所有的storaserver和group,对数据的元信息(目录结构、节点信息、冗余信息权限等)进行维护,负责与Client和Storage邋Server进行元数据的操交互。逡逑存储服务器(Storage邋Server):真正存储数据的节点。逡逑c,,errt

【相似文献】

相关期刊论文 前10条

1 李兵;林文钊;罗峥尹;;基于机器学习的智慧农业决策系统设计与实现[J];信息与电脑(理论版);2018年24期

2 朱辉;;机器学习在企业级场景中的实践与探讨[J];中国建设信息化;2018年03期

3 彭传意;;机器学习——我们该如何与机器竞争[J];数字通信世界;2018年01期

4 陈轶翔;埃里克·布伦乔尔森;汤姆·米切尔;;机器学习的能力范围及其对劳动力的影响[J];世界科学;2018年04期

5 赵长林;;机器学习即服务[J];网络安全和信息化;2017年10期

6 ;机器学习作用于信息安全的五大顶级案例[J];网络安全和信息化;2018年01期

7 吴承杨;;2018年来说说机器学习[J];软件和集成电路;2018年05期

8 宋雯博;;大数据下的机器学习的应用趋势[J];电脑迷;2018年09期

9 吴炜;孙强;;应用机器学习加速新材料的研发[J];中国科学:物理学 力学 天文学;2018年10期

10 宋明成;;机器学习隐私的安全隐患[J];计算机与网络;2018年16期

相关会议论文 前10条

1 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年

2 王衍鲁;张利会;张淑洁;石洁茹;王鹏;;大学新生学校适应的个体与环境因素探究:基于机器学习的考察[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年

3 张长水;;大数据机器学习[A];2015年中国自动化大会摘要集[C];2015年

4 何琳;侯汉清;;基于标引经验和机器学习相结合的多层自动分类[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

5 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年

6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年

7 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年

8 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

9 吴娜;刁联旺;;基于机器学习的博弈对抗模型优化框架软件系统设计[A];第六届中国指挥控制大会论文集(上册)[C];2018年

10 吴向华;;机器学习在钢厂能耗分析中的应用[A];中国计量协会冶金分会2018年会论文集[C];2018年

相关重要报纸文章 前10条

1 本报驻波士顿记者 侯丽;深入挖掘机器学习潜力[N];中国社会科学报;2019年

2 王方 编译;菌自何方 机器学习早知道[N];中国科学报;2019年

3 CIO.com资深作家 Clint Boulton 编译 Charles;领先一步:机器学习的10个成功案例[N];计算机世界;2018年

4 Bob Violino 编译 Charles;盲目冒进:机器学习的5个失败案例[N];计算机世界;2018年

5 360 IoT研究院院长 李康;从机器学习到机器创造[N];中国信息化周报;2017年

6 谢静;机器学习帮助用户释放数据价值[N];人民邮电;2018年

7 Mary Branscombe 编译 范范;关于机器学习的9大误区[N];计算机世界;2018年

8 张盖伦;机器学习界所抵制的,是旧的知识分享方式[N];科技日报;2018年

9 外语教学与研究出版社基础教育分社综合产品部编辑部副主任 张世钦;机器学习赋能编辑出版[N];中国出版传媒商报;2018年

10 复旦大学社会学系 胡安宁;以机器学习方法助力因果推断[N];中国社会科学报;2018年

相关博士学位论文 前10条

1 管月;医学肿瘤影像分类算法研究及其在肝癌上的应用[D];南京大学;2018年

2 郝小可;基于机器学习的影像遗传学分析及其应用研究[D];南京航空航天大学;2017年

3 张庆;钙钛矿型功能材料的基因组工程研究[D];上海大学;2018年

4 王磊;基于机器学习的药物—靶标相互作用预测研究[D];中国矿业大学;2018年

5 张庆庆;基于机器学习的文本情感分类研究[D];西北工业大学;2016年

6 窦贤明;机器学习方法在陆地生态系统碳水通量模拟中的应用研究[D];中国矿业大学;2018年

7 鲁路;基于机器学习优化分子对接筛选肾衰营养胶囊有效成分[D];南方医科大学;2017年

8 王泉德;机器学习及其在多Agent对策学习中的应用研究[D];武汉大学;2005年

9 翁时锋;基于机器学习的几种医学数据处理方法研究[D];清华大学;2005年

10 范玉刚;基于Kernel的机器学习在建模与分类问题的应用研究[D];浙江大学;2006年

相关硕士学位论文 前10条

1 毛小旺;基于机器学习的哭声检测系统研究与开发[D];南京邮电大学;2018年

2 张文一;基于机器学习的松毛虫发生面积预测模型的研究及应用[D];东北林业大学;2017年

3 田瑶瑶;基于机器学习的机电系统关键部件PHM技术研究[D];南京航空航天大学;2018年

4 赵怀玉;基于机器学习建立腹部大手术精细化营养支持策略的研究[D];北京协和医学院;2018年

5 李舒;逃避攻击及其在中文垃圾短信过滤中的应用[D];南京邮电大学;2018年

6 朱传帅;Pmn2_1-BAlNP第一性原理与机器学习研究[D];西安电子科技大学;2018年

7 郭萧;基于机器学习算法的智慧农业决策系统研究[D];西安电子科技大学;2018年

8 高帅;基于机器学习的扫视路径估计方法研究[D];西安电子科技大学;2018年

9 惠冰;基于Hadoop平台的机器学习分类算法[D];西安电子科技大学;2018年

10 杜婷;基于机器学习的角膜炎图像辅助诊断研究与实现[D];西安电子科技大学;2018年



本文编号:2806245

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2806245.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a4e4c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com