当前位置:主页 > 科技论文 > 自动化论文 >

面向全基因组的改进参数服务器研究

发布时间:2017-12-01 21:27

  本文关键词:面向全基因组的改进参数服务器研究


  更多相关文章: 全基因组 参数服务器 机器学习 FTRL 并行计算


【摘要】:随着高通量测序成本的逐年下降,针对全基因组数据的研究开始火热发展。由于数据规模的激增,以往基于传统统计分析的方法表现出工作量巨大、效率低下等问题,面向全基因组的大规模机器学习成为研究和发展的重要方向。面对这一问题,不少组织机构尝试采用如Hadoop、Spark等通用分布式计算框架,效果并不太理想。效果不理想的主要原因在于框架对全基因组机器学习问题的适用性不佳。因此,本文提出了采用基于参数服务器的分布式计算架构来应对全基因组机器学习问题。参数服务器是近两年新兴的一种分布式机器学习框架的抽象,目前在大型广告系统和人工智能系统中有着深入的应用。这种概念最早于2010年由Alex Smola在其设计的并行LDA框架中被提出。在此之后,参数服务器于2012年作为Google Brain的解决方案被业内所广泛关注。其架构的核心设计是将模型参数的存储和更新上升为独立组件,并采用异步机制提升处理能力。通过这种设计,有效的解决了大规模机器学习求解过程中参数收敛非均性所带来的低效迭代问题,大大减少了在通信、协调、等待过程中的资源浪费。这种优化同时也使得模型求解效率得以真正随着机器的增加而能力线性提升,从而为全基因组机器学习问题的解决提供新的思路。本文首先系统阐述分析了全基因组机器学习问题在计算机技术上的难点,并总结探讨了已有主流分布式计算框架抽象的特点和适用性。然后针对全基因组机器学习效率问题,本文改进了传统参数服务器的架构,引入了FTRL算法,设计实现了一种改进参数服务器模型GW-PS。该模型能引入稀疏性,防止过拟合,从而更好的适应全基因组数据。在此基础上,根据基因序列特异性识别的切实需求,本文还改进了传统的卷积神经网络结构,并分别在改进参数服务器GW-PS和Spark架构上进行了详细的模型训练效率对比。实验证明,改进参数服务器GW-PS对于全基因组机器学习问题在效率和性能上都要优于传统的Spark架构,为参数服务器这种最新技术在生物信息学问题上的可行性做出了探索。
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4;TP181

【相似文献】

中国期刊全文数据库 前10条

1 王珏,石纯一;机器学习研究[J];广西师范大学学报(自然科学版);2003年02期

2 张震;李军利;;机器学习方法及其在生物信息学中的应用[J];吉首大学学报(自然科学版);2006年04期

3 许程;;机器学习的主要策略与基本结构[J];科技资讯;2010年03期

4 黄蔚;;浅析机器学习及其在教育中的应用[J];科技信息;2011年18期

5 曹加恒;汤怡群;姚唐;;机器学习研究[J];武汉大学学报(自然科学版);1988年01期

6 林士敏;机器学习概况[J];广西师范大学学报(自然科学版);1989年02期

7 卢美律;张渡;;机器学习:理论、方法及应用[J];科学;1995年02期

8 罗芳;李志亮;;基于分类的机器学习方法中的决策树算法[J];宁德师专学报(自然科学版);2009年01期

9 李钧涛;杨瑞峰;左红亮;;统计机器学习研究[J];河南师范大学学报(自然科学版);2010年06期

10 黄健;;何清:挖掘数据开启新知[J];科学中国人;2013年12期

中国重要会议论文全文数据库 前10条

1 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年

2 王昊;李银波;纪志梁;;利用机器学习方法预测严重药物不良反应-呼吸困难[A];中国化学会第28届学术年会第13分会场摘要集[C];2012年

3 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年

4 周晴杰;徐立鸿;吴启迪;;机器学习串级结构的初步探讨[A];1998年中国控制会议论文集[C];1998年

5 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年

6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年

7 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

8 黄金铁;李景银;周建常;;对高炉炉况评价模型参数的机器学习——一个三类线性模式分类器的实现[A];1995中国控制与决策学术年会论文集[C];1995年

9 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年

10 张钹;张铃;;统计学习理论及其应用[A];2001年中国智能自动化会议论文集(上册)[C];2001年

中国重要报纸全文数据库 前10条

1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年

2 IBM大数据专家 James Kobielus 范范 编译;机器学习已成为大数据基石[N];网络世界;2014年

3 本报记者 房琳琳;合久必分:分布式“机器学习”应运而生[N];科技日报;2014年

4 雨辰;机器学习类图书为什么火爆[N];中华读书报;2014年

5 百度公司技术副总监 多媒体部负责人 余凯;深度学习与多媒体搜索技术演进[N];中国信息化周报;2013年

6 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年

7 本报记者 张晔邋通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年

8 记者  彭德倩;机器学习精度提升近6个百分点[N];解放日报;2006年

9 本报记者 闵杰;大数据热 高端人才缺[N];中国电子报;2013年

10 沈建苗 编译;如何成为大数据科学家[N];计算机世界;2013年

中国博士学位论文全文数据库 前10条

1 董春茹;机器学习中的权重学习与差分演化[D];华南理工大学;2015年

2 姚明臣;机器学习和神经网络学习中的若干问题研究[D];大连理工大学;2016年

3 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年

4 胡巍;面向格结构的机器学习[D];上海交通大学;2009年

5 张义荣;基于机器学习的入侵检测技术研究[D];国防科学技术大学;2005年

6 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年

7 梁锡军;稀疏优化在机器学习中的若干应用[D];大连理工大学;2013年

8 蒋刚;核机器学习方法若干问题研究[D];西南交通大学;2006年

9 陈慧灵;面向智能决策问题的机器学习方法研究[D];吉林大学;2012年

10 周伟达;核机器学习方法研究[D];西安电子科技大学;2003年

中国硕士学位论文全文数据库 前10条

1 毛海斌;基于半监督机器学习的情感分类领域适应问题研究[D];南京理工大学;2015年

2 安军辉;基于微博数据的微博用户性别判断研究[D];华中师范大学;2015年

3 陈召阳;基于机器学习的改性麦槽吸附重金属构效关系模型研究[D];江西理工大学;2014年

4 王成;基于半监督机器学习的文本情感分析技术[D];南京理工大学;2015年

5 孙科;基于Spark的机器学习应用框架研究与实现[D];上海交通大学;2015年

6 刘江龙;基于机器学习的射频指纹定位方法研究[D];电子科技大学;2015年

7 张蕾;基于机器学习的网络舆情采集技术研究与设计[D];电子科技大学;2014年

8 施宇;基于数据挖掘和机器学习的木马检测系统设计与实现[D];电子科技大学;2014年

9 施应敏;基于机器学习的Femtocell信道频谱与功率资源分配算法的研究[D];南京邮电大学;2015年

10 张柯;基于机器学习的错误定位方法研究[D];南京航空航天大学;2015年



本文编号:1242542

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1242542.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户68f12***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com