当前位置:主页 > 科技论文 > 搜索引擎论文 >

Internet推动的化学信息学重要进展

发布时间:2020-01-26 03:18
【摘要】:Internet的普及为专业人员获取数据信息、利用计算工具提供了统一的平台,由此为化学信息学的发展带来了新的空间,推动了化学信息学以网络为基础,以化学相关的数据、信息及计算资源共享为目标的快速发展。本文将从不同侧面回顾近10年来化学信息学的重要进展,包括:(1)网络化学信息检索:索引对象从化学浅层网向化学深层网发展;检索工具从web化学信息资源导航向化学专业搜索引擎(包括文本信息和化合物标识信息)、及化学深层网检索引擎(化合物物性数据提取)发展;索引粒度从web站点向页面、乃至页面中的特定内容发展,一般页面特定内容的数据提取(即非结构化数据提取)是未来发展的方向。(2)可共享的化学数据库:从可免费访问和使用的化学数据库向数据库内容通过集成多来源数据(包括数据库拥有者主动收集、多来源数据主动提交达到共享的方式,repository)实现数据库内容免费下载和共享,以及不同数据库之间的相关内容实现无缝连接的方向发展(如NIH建成的药物小分子共享数据库PubChem)。(3)开源(open source)化学软件工具包:从化学结构基本处理模块如CDKJ、OELib向集成开发环境如化学信息学与生物信息学集成环境Bioclipse发展。(4)与化合物及其数据共享相关的推荐标准:包括用于共享数据交换的化学标记语言CMLI、UPAC推荐的学术论文相关热力学实验数据提交标准ThermoML及化合物结构唯一描述码InChI。(5)计算化学资源共享及基于网格的应用:从可执行程序的下载向在线计算、基于网格的应用发展。(6)eChemistry和虚拟研究环境:网络也成为化学相关日常的科学活动中不可缺少的平台。构建以网络为平台、支持开展科研活动的数字化基础设施和服务的eChemistry探索开始出现,根据需要自主集成多来源数据和计算资源,形成不同层次的支持协同工作的虚拟研究环境是未来数据和计算资源共享方式的发展方向。
【图文】:

索引图,信息图,索引,检索工具


络化学信息的文本索引(chemistrytext index)开始,逐步向建立化合物索引、以及向建立化合物相关的数据的索引发展(图1)。其中建立化学文本索引形成的工具从网络化学信息资源导航系统(chemistry webdirectory)向化学(文本)专业搜索引擎(chemistrysearch engine)发展。图1 Web化学信息专门检索工具从文本检索引向化合物索引、乃至化合物性质数据的索引发展Fig.1 The evolution of web searching tools specific forchemical information, from text index to compound index,further to chemical property data index最近两三年值得关注的热点是建立化合物索引(compound index)的努力,目标是建立化合物搜索引擎(chemical/compound search engine)实现分布在网络上多来源化学数据库的统一检索。一类方法是通过各个化学数据库主动将自己库的化合物索引提交到一个中心站点(DB index deposit),在此基础上生成化合物的统一索引;另一类方法是通过化学深层网(chemistry deep web)深层数据结构挖掘和目标数据·1850·化 学 进 展第20卷

化学图,系统结构,化学专业,搜索引擎


相关的领域知识相结合,设计并建立了一个规模为1 000万页面的化学(文本)搜索引擎原型系统ChemEngine。ChemEngine的系统结构如图3所示,与通用搜索引擎的结构类似,由网络爬虫、索引器和检索器三大块组成,所不同的是ChemEngine的爬虫是一个化学主题爬虫(chemistry focused crawler),其检索器(searcher)可根据化学相关主题进行检索结果的自动分类[23—32]。ChemEngine所解决的关键问题是如何在化学相关领域知识的指导下实现化学相关的web页面的自动发现和选择性爬行。ChemEngine利用ChIN[8,9]所积累的网络化学信息源知识如ChIN的URL库、ChIN所索引资源的描述数图3 化学专业搜索引擎ChemEngine的系统架构图Fig.3 The architecture of chemistry focused search engineChemEngine据、化学化工专业字典等领域知识,采用文本自动分类方法用于web页面的化学相关性判断,系统分析了建立化学主题爬虫的各种影响因素

【参考文献】

相关期刊论文 前4条

1 夏诏杰;梁春燕;郭力;;化学主题网络爬虫的设计和实现[J];计算机工程与应用;2006年10期

2 梁春燕,郭力,夏诏杰,杨章远;网络搜索引擎的性能优化策略和相关技术[J];计算机工程与应用;2004年36期

3 储春梅,李晓霞,郭力;定向查询引擎在Web化学数据库集成检索中的应用[J];计算机与应用化学;2005年08期

4 祝宇;夏诏杰;聂峰光;郭力;;支持向量机在化学主题爬虫中的应用[J];计算机与应用化学;2006年04期

【共引文献】

相关期刊论文 前1条

1 唐培丽;解飞;陈志雨;;基于概念检索的中文搜索引擎研究[J];长春大学学报;2006年04期

相关硕士学位论文 前6条

1 董立;Web信息挖掘在公共信息安全中的应用[D];山东大学;2007年

2 于歌;搜索引擎中自动分类关键技术研究[D];燕山大学;2006年

3 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年

4 杜光芹;效用驱动的主题Web挖掘算法研究[D];山东师范大学;2007年

5 方利伟;个性化在线答疑系统的研究与实现[D];浙江师范大学;2007年

6 周阿连;基于智能Agent的社区化信息检索系统的研究[D];大连海事大学;2007年

【二级参考文献】

相关期刊论文 前9条

1 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑;2001年04期

2 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期

3 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期

4 李晓霞,杨章远,许志宏;Internet化学资源的发展状况与展望[J];计算机与应用化学;1999年05期

5 黄苏华,李晓霞,郭力,刘宗红,杨章远;基于数据库的Internet化学资源导航信息管理与自动发布[J];计算机与应用化学;2000年03期

6 刘宗红,李晓霞,郭力,黄苏华,杨章远;基于数据库的Internet化学资源导航系统与用户的交互[J];计算机与应用化学;2000年05期

7 王华彦,李晓霞,郭力,杨章远;Internet化学资源导航系统中的相关资源链接[J];计算机与应用化学;2003年Z1期

8 储春梅,李晓霞,郭力;定向查询引擎在Web化学数据库集成检索中的应用[J];计算机与应用化学;2005年08期

9 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期

【相似文献】

相关会议论文 前7条

1 李晓霞;郭力;袁小龙;聂峰光;;Internet推动的化学信息学重要进展[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年

2 沈天翔;朱福成;黄迎;谢微;姚建华;;化学信息学与“e-科学”[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年

3 乔园园;李飞;;Mashup开发模式及实例CHEMap[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年

4 李晓霞;袁小龙;夏诏杰;井银铃;聂峰光;唐武成;郭力;;利用ChemDB Portal检索化学深层网[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年

5 张勇;傅尧;;基于量化的数据库[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年

6 李佳;黄迎;徐雯丽;胡静;姚建华;;虚拟技术与化学研究[A];中国化学会第28届学术年会第16分会场摘要集[C];2012年

7 李佳;黄迎;解丽娜;凌敏;胡静;陈碧玲;冯j;姚建华;;虚拟技术在化学研究中的应用[A];公共安全中的化学问题研究进展(第二卷)[C];2011年

相关硕士学位论文 前5条

1 刘志刚;天然药物网络数据库中活性分子3D结构的实现及其构效关系研究[D];四川大学;2002年

2 曹庆文;常用化学数据资源库的构建和基于ASP的WEB管理信息系统的设计与实现[D];四川大学;2003年

3 张静;MDL数据库与虚拟筛选技术跨平台对接技术研究与应用[D];长春理工大学;2009年

4 曹东升;QSPR/QSAR中分子结构信息的挖掘和建模中奇异样本检测[D];中南大学;2009年

5 李创业;化合物结构的网络检索[D];河北工业大学;2007年



本文编号:2573192

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2573192.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户90b99***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com