[Abstract]:With the development of information technology in all kinds of industries in the whole society, the information data has been increasing explosively, and the related information storage, processing and management technology have been put forward higher requirements. Cloud computing integrates large-scale computing and storage resources into a computing resource pool through the network and provides users with on-demand services, which effectively meet the needs of massive information storage and processing. In the field of drug design, the use of computer virtual screening to find compounds with biological activity is an important research method, one of which is to compare the structure of unknown molecules with those with known functions. The bioactivity of the unknown molecule is predicted according to their structural similarity. It is widely used in the research and development of new drugs and the discovery of new chemicals. With the increase of the number of compounds, the demand for drug screening and calculation is increasing rapidly, which puts forward higher requirements for computing system processing technology. The traditional single machine processing method has a great limit. The characteristics of cloud computing technology provide a potential solution to this problem. In this case, how to apply cloud computing technology to computer virtual filtering has become a topic worth studying. This paper studies the theory, characteristics and key technologies of cloud computing, explores the distributed data processing programming model (MapReduce) and its open source implementation mechanism and principle of Hadoop, and puts forward a distributed solution to the problem of molecular structure comparison. The main contributions are as follows: 1) the related technologies and molecular similarity comparison algorithms of cloud computing are studied. Combined with the advantages of Hadoop cloud computing technology, Hadoop can not be directly applied to the problem of molecular similarity comparison. An index file based processing method is proposed, and Hadoop cloud computing technology is applied to the field of molecular similarity comparison. 2) the feasibility of the method is verified by experiments. The experimental results show that the proposed scheme is 14.4 times faster than the single processor system under the condition of 16 CPU parallel processing, which can effectively meet the requirement of mass computing in the molecular similarity comparison system. 3) aiming at the possible problem of data skew in Hadoop's Partition algorithm, a uniform polling partition algorithm is proposed, which reduces the effect of data skew. The experiment shows that the algorithm can improve the efficiency of the whole system by more than 5%. 4) the MapReduce framework has fault-tolerant function, that is, when a computing node fails, the master node will automatically assign the node computing tasks to other idle machines, but the data block of the computing node will be reprocessed. We have improved this so that the data block starts from the last time it was processed and avoids a lot of double computations.
相关期刊论文 前10条
1 浦洁;韩煜明;;吉林移动网管中心云计算技术的应用建议[J];东方企业文化;2009年12期
2 李斌;解决科学问题的分布式系统[J];管理科学文摘;1997年02期
3 ;移动计算技术带队[J];每周电脑报;1999年02期
4 代伟;自适应计算技术在无线移动通信中的应用[J];电子产品世界;2002年06期
5 杨永吉;;大规模文档信息的检索策略[J];现代情报;2007年08期
6 黄海鹰,常青,卢焕章;可重构计算技术[J];电子技术应用;1998年05期
7 丁智勇,曹卫国;当代计算技术正孕育着重大变革[J];中国党政干部论坛;2000年03期
8 ;正在走近的第二次革命[J];个人电脑;2001年10期
9 尚武;分布式对象技术及其新进展[J];商场现代化;2005年20期
10 ;计算技术与计算机及网络设备 硬件[J];电子科技文摘;2006年10期
相关会议论文 前10条
1 张德明;;构建分布式声纳信号处理系统[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
2 刘辉兰;李陶深;葛志辉;;基于代理的分布式入侵检测系统中网络代理的相关技术研究[A];广西计算机学会2005年学术年会论文集[C];2005年
3 韩希先;李建中;;分布式有序表中一种有效的在线计划批量插入方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 郭柯;代璐;周林;;分布式并网发电系统孤岛检测方法综述[A];重庆市电机工程学会2010年学术会议论文集[C];2010年
5 李其莹;张洪霞;;配电网中实现小电流接地选线一种方案[A];华东六省一市电机工程(电力)学会输配电技术研讨会2002年年会山东电机工程学会交流论文集[C];2002年
6 周详;王龙明;;建立分布式防护的安全体系[A];中国烟草行业信息化研讨会论文集[C];2004年
7 高长寿;陈定方;郭蕴华;周丽琨;;分布式路由器级拓扑发现技术研究[A];2005年十二省区市机械工程学会学术年会论文集(湖北专集)[C];2005年
8 乔善平;朱波;赵玲;;基于移动Agent的0-1背包问题分布式求解[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 林然;;一种分布式VOD管理方案[A];四川省通信学会2007年学术年会论文集[C];2007年
10 张红娟;刘晖;唐健;钱闯;;分布式CORS服务平台的设计与原型系统的开发实现[A];第三届中国卫星导航学术年会电子文集——S08卫星导航模型与方法[C];2012年
相关重要报纸文章 前10条
1 晓京;做分布式呼叫中心[N];中国计算机报;2003年
2 记者 张磊;分布式能源技术研讨会在京召开[N];中国电力报;2004年
3 盖俊飞 林楠;分布式ISA防火墙与服务器的配置[N];电脑报;2003年
4 刘轶轩;IONA:分布式SOA四两拨千斤[N];通信产业报;2007年
5 ;如何让64位计算无处不在[N];计算机世界;2003年
6 ;中兴通讯分布式“3G”服务[N];中国计算机报;2002年
7 记者 李大庆;我国首套分布式GPU超级计算系统启用[N];科技日报;2010年
8 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统趋向成熟[N];中国计算机报;2005年
9 国防科学技术大学计算机学院软件所 董勇 周恩强;构建分布式文件系统[N];中国计算机报;2005年
10 李芸 星际网络公司;IP分布式呼叫中心 让企业驶离信息孤岛[N];计算机世界;2002年
相关博士学位论文 前10条
1 王宇翔;分布式网络地理信息系统研究[D];中国科学院研究生院(遥感应用研究所);2002年
2 董红军;基于多Agent的分布式CAPP及工艺信息管理研究[D];西北工业大学;2000年
3 娄渊胜;基于构件的分布式防汛信息系统框架研究[D];河海大学;2002年
4 刘峰;仪用主从耦合分布式并行处理容错系统体系结构研究[D];浙江大学;2003年
5 王加虎;分布式水文模型理论与方法研究[D];河海大学;2006年
6 傅涛;基于数据挖掘的分布式网络入侵协同检测系统研究及实现[D];南京理工大学;2008年
7 唐秋华;分布式虚拟环境建模研究[D];武汉理工大学;2005年
8 侯梅毅;分布式同步发电机的孤岛检测原理与实现[D];山东大学;2010年
9 朱旭琪;分布式信息压缩算法研究[D];北京邮电大学;2011年
10 周克昌;分布式地震数据库系统的研究与实践[D];中国地震局地球物理研究所;2003年
相关硕士学位论文 前10条
1 高长寿;IP网络分布式拓扑自动发现技术研究[D];武汉理工大学;2005年
2 梁景雯;基于云计算技术的医院信息系统[D];山东大学;2012年
3 李杰辉;基于云计算技术的化合物相似性分析系统[D];复旦大学;2012年
4 成海生;分布式水轮机CAD系统框架研究及应用[D];河海大学;2002年
5 张少柏;基于移动Agent的分布式数据查询研究与应用[D];河海大学;2005年
6 薛沛林;基于IP网的分布式视频会议系统的研究与实践[D];暨南大学;2001年
7 严芬;分布式多层应用系统及其安全控制的研究与应用[D];扬州大学;2002年
8 王雄;基于网络的分布式测试系统开放式架构研究与实现[D];西北工业大学;2003年
9 李佐儒;分布式数字监控系统及其在安全生产管理中的应用[D];四川大学;2003年
10 郑大志;基于Web服务和CORBA的分布式网络管理体系结构研究[D];武汉科技大学;2003年