当前位置:主页 > 科技论文 > 计算机论文 >

基于云计算技术的化合物相似性分析系统

发布时间:2018-11-24 07:22
【摘要】:随着整个社会各行各业信息化进程的发展,信息数据呈现了爆炸式地增长,对相关的信息存储、处理和管理技术也提出了更高的要求。而云计算通过网络将超大规模的计算和存储资源整合成计算资源池并以按需服务的方式提供给用户,有效地满足了海量信息存储和处理的需求。 在药物设计领域,利用计算机虚拟筛选发现具有生物活性的化合物是一种重要的研究方法,其中一种筛选方法是将功能未知的分子与功能已知的分子进行结构比较,根据它们的结构相似性特征来预测该未知分子的生物活性,它大量应用于新药研发和新型化学物发现过程中。随着化合物数量的增加,药物筛选计算需求急剧增长,这就对计算系统处理技术提出了更高的要求,传统的单台机器处理方法具有很大的极限性,而云计算技术的特点为这个问题提供了潜在的解方案,在这种情况下,如何将云计算技术应用到计算机虚拟筛选中成为值得研究的课题。 本文研究了云计算的相关理论、特点和关键技术,探索了分布式数据处理编程模型MapReduce以及其开源实现Hadoop的运行机制和原理,针对分子结构比较问题提出了一个分布式解决方案。主要做了如下研究: 1)研究了云计算相关技术和分子相似性比较算法,结合Hadoop云计算技术的优点,针对Hadoop无法直接应用于分子相似性比较问题,提出了基于索引文件的处理方法,将Hadoop云计算技术应用到分子相似性比较领域上。 2)通过实验验证了该方法的可行性。实验结果表明该系统在拥有16个CPU并行处理的情况下,本方案平均比单机处理系统快14.4倍,有效地满足了分子相似性比较系统海量计算的需求。 3)针对Hadoop的Partition算法可能存在的数据倾斜的问题,提出了一个均匀的轮询分区算法,减少了数据倾斜带来的影响,实验证明该算法可以使整个系统的效率提高5%以上。 4) MapReduce框架具备容错功能,也就是当某个计算节点出现故障时,主节点会自动把该节点计算任务分配到别的空闲机器上,但是该计算节点的数据块会被从新处理。我们对此进行了改进,使得该数据块从新被处理时从上一次中断的地方开始,避免了大量的重复计算。
[Abstract]:With the development of information technology in all kinds of industries in the whole society, the information data has been increasing explosively, and the related information storage, processing and management technology have been put forward higher requirements. Cloud computing integrates large-scale computing and storage resources into a computing resource pool through the network and provides users with on-demand services, which effectively meet the needs of massive information storage and processing. In the field of drug design, the use of computer virtual screening to find compounds with biological activity is an important research method, one of which is to compare the structure of unknown molecules with those with known functions. The bioactivity of the unknown molecule is predicted according to their structural similarity. It is widely used in the research and development of new drugs and the discovery of new chemicals. With the increase of the number of compounds, the demand for drug screening and calculation is increasing rapidly, which puts forward higher requirements for computing system processing technology. The traditional single machine processing method has a great limit. The characteristics of cloud computing technology provide a potential solution to this problem. In this case, how to apply cloud computing technology to computer virtual filtering has become a topic worth studying. This paper studies the theory, characteristics and key technologies of cloud computing, explores the distributed data processing programming model (MapReduce) and its open source implementation mechanism and principle of Hadoop, and puts forward a distributed solution to the problem of molecular structure comparison. The main contributions are as follows: 1) the related technologies and molecular similarity comparison algorithms of cloud computing are studied. Combined with the advantages of Hadoop cloud computing technology, Hadoop can not be directly applied to the problem of molecular similarity comparison. An index file based processing method is proposed, and Hadoop cloud computing technology is applied to the field of molecular similarity comparison. 2) the feasibility of the method is verified by experiments. The experimental results show that the proposed scheme is 14.4 times faster than the single processor system under the condition of 16 CPU parallel processing, which can effectively meet the requirement of mass computing in the molecular similarity comparison system. 3) aiming at the possible problem of data skew in Hadoop's Partition algorithm, a uniform polling partition algorithm is proposed, which reduces the effect of data skew. The experiment shows that the algorithm can improve the efficiency of the whole system by more than 5%. 4) the MapReduce framework has fault-tolerant function, that is, when a computing node fails, the master node will automatically assign the node computing tasks to other idle machines, but the data block of the computing node will be reprocessed. We have improved this so that the data block starts from the last time it was processed and avoids a lot of double computations.
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP3;TQ460

【相似文献】

相关期刊论文 前10条

1 浦洁;韩煜明;;吉林移动网管中心云计算技术的应用建议[J];东方企业文化;2009年12期

2 李斌;解决科学问题的分布式系统[J];管理科学文摘;1997年02期

3 ;移动计算技术带队[J];每周电脑报;1999年02期

4 代伟;自适应计算技术在无线移动通信中的应用[J];电子产品世界;2002年06期

5 杨永吉;;大规模文档信息的检索策略[J];现代情报;2007年08期

6 黄海鹰,常青,卢焕章;可重构计算技术[J];电子技术应用;1998年05期

7 丁智勇,曹卫国;当代计算技术正孕育着重大变革[J];中国党政干部论坛;2000年03期

8 ;正在走近的第二次革命[J];个人电脑;2001年10期

9 尚武;分布式对象技术及其新进展[J];商场现代化;2005年20期

10 ;计算技术与计算机及网络设备 硬件[J];电子科技文摘;2006年10期

相关会议论文 前10条

1 张德明;;构建分布式声纳信号处理系统[A];中国声学学会2002年全国声学学术会议论文集[C];2002年

2 刘辉兰;李陶深;葛志辉;;基于代理的分布式入侵检测系统中网络代理的相关技术研究[A];广西计算机学会2005年学术年会论文集[C];2005年

3 韩希先;李建中;;分布式有序表中一种有效的在线计划批量插入方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

4 郭柯;代璐;周林;;分布式并网发电系统孤岛检测方法综述[A];重庆市电机工程学会2010年学术会议论文集[C];2010年

5 李其莹;张洪霞;;配电网中实现小电流接地选线一种方案[A];华东六省一市电机工程(电力)学会输配电技术研讨会2002年年会山东电机工程学会交流论文集[C];2002年

6 周详;王龙明;;建立分布式防护的安全体系[A];中国烟草行业信息化研讨会论文集[C];2004年

7 高长寿;陈定方;郭蕴华;周丽琨;;分布式路由器级拓扑发现技术研究[A];2005年十二省区市机械工程学会学术年会论文集(湖北专集)[C];2005年

8 乔善平;朱波;赵玲;;基于移动Agent的0-1背包问题分布式求解[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

9 林然;;一种分布式VOD管理方案[A];四川省通信学会2007年学术年会论文集[C];2007年

10 张红娟;刘晖;唐健;钱闯;;分布式CORS服务平台的设计与原型系统的开发实现[A];第三届中国卫星导航学术年会电子文集——S08卫星导航模型与方法[C];2012年

相关重要报纸文章 前10条

1 晓京;做分布式呼叫中心[N];中国计算机报;2003年

2 记者 张磊;分布式能源技术研讨会在京召开[N];中国电力报;2004年

3 盖俊飞 林楠;分布式ISA防火墙与服务器的配置[N];电脑报;2003年

4 刘轶轩;IONA:分布式SOA四两拨千斤[N];通信产业报;2007年

5 ;如何让64位计算无处不在[N];计算机世界;2003年

6 ;中兴通讯分布式“3G”服务[N];中国计算机报;2002年

7 记者 李大庆;我国首套分布式GPU超级计算系统启用[N];科技日报;2010年

8 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统趋向成熟[N];中国计算机报;2005年

9 国防科学技术大学计算机学院软件所 董勇 周恩强;构建分布式文件系统[N];中国计算机报;2005年

10 李芸 星际网络公司;IP分布式呼叫中心 让企业驶离信息孤岛[N];计算机世界;2002年

相关博士学位论文 前10条

1 王宇翔;分布式网络地理信息系统研究[D];中国科学院研究生院(遥感应用研究所);2002年

2 董红军;基于多Agent的分布式CAPP及工艺信息管理研究[D];西北工业大学;2000年

3 娄渊胜;基于构件的分布式防汛信息系统框架研究[D];河海大学;2002年

4 刘峰;仪用主从耦合分布式并行处理容错系统体系结构研究[D];浙江大学;2003年

5 王加虎;分布式水文模型理论与方法研究[D];河海大学;2006年

6 傅涛;基于数据挖掘的分布式网络入侵协同检测系统研究及实现[D];南京理工大学;2008年

7 唐秋华;分布式虚拟环境建模研究[D];武汉理工大学;2005年

8 侯梅毅;分布式同步发电机的孤岛检测原理与实现[D];山东大学;2010年

9 朱旭琪;分布式信息压缩算法研究[D];北京邮电大学;2011年

10 周克昌;分布式地震数据库系统的研究与实践[D];中国地震局地球物理研究所;2003年

相关硕士学位论文 前10条

1 高长寿;IP网络分布式拓扑自动发现技术研究[D];武汉理工大学;2005年

2 梁景雯;基于云计算技术的医院信息系统[D];山东大学;2012年

3 李杰辉;基于云计算技术的化合物相似性分析系统[D];复旦大学;2012年

4 成海生;分布式水轮机CAD系统框架研究及应用[D];河海大学;2002年

5 张少柏;基于移动Agent的分布式数据查询研究与应用[D];河海大学;2005年

6 薛沛林;基于IP网的分布式视频会议系统的研究与实践[D];暨南大学;2001年

7 严芬;分布式多层应用系统及其安全控制的研究与应用[D];扬州大学;2002年

8 王雄;基于网络的分布式测试系统开放式架构研究与实现[D];西北工业大学;2003年

9 李佐儒;分布式数字监控系统及其在安全生产管理中的应用[D];四川大学;2003年

10 郑大志;基于Web服务和CORBA的分布式网络管理体系结构研究[D];武汉科技大学;2003年



本文编号:2352771

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2352771.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1df45***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com