化学物质Web信息获取方法的研究与实现
本文关键词:化学物质Web信息获取方法的研究与实现
更多相关文章: 化学物质信息 Web信息抽取 主题相关性 主题网络爬虫 迭代结构
【摘要】:随着互联网技术的高速发展和计算机的全面普及,因特网成为了世界上最大的信息资料库,也日益成为化工企业、组织和个人发布化学信息的主要场所。然而,由于因特网中庞大的信息量,使得采用百度、谷歌等进行信息检索的常规手段存在准确度不高、效率低下的问题,无法满足化学工作者高效检索化学信息的需求。针对上述问题,本文以常用化学物质网站为研究对象,开展化学物质Web信息获取方法的相关研究,以实现网页中化学物质信息的抽取及存入化学物质数据库的目的。本文的主要研究内容和实验结果如下:(1)化学物质网页的采集方法研究。采集化学物质网页是进行网页信息抽取的前提,但是在化学网站中不可避免地存在与化学物质信息无关或相关度不高的网页(即主题无关性网页),针对此问题本文采用基于正则表达式的URL主题相关性预测技术和基于文字内容启发式的网页主题相关性判别技术实现主题相关网页的爬取功能,并在此基础上实现一个主题网络爬虫。经实验证明,该主题网络爬虫能够有效采集化学物质网页,达到研究所需要求。(2)化学物质Web信息抽取方法研究。爬取到的化学物质网页,其格式和内容达不到作为训练样本网页和待抽取网页的要求,因此首先需要对网页进行预处理操作,修复网页格式、剔除“噪声”信息;然后在分析网页结构的基础上,设计基于树结构的抽取规则生成算法,针对单个网页来主动寻找迭代结构并用正则表达式对其进行描述生成网页的抽取规则;最后根据得到的抽取规则把网页中的化学物质信息提取出来,保存到化学物质数据库中。实验结果表明,设计的抽取方法能够准确抽取出网页中的化学物质信息,召回率保持在95.2%之上。(3)化学物质网页信息抽取系统的设计与实现。结合化学物质网页采集方法和化学物质Web信息抽取方法,设计实现了基于B/S架构模式的化学物质网页信息抽取系统,该系统集成了化学物质网页的爬取、网页清洗、网页抽取规则的生成和网页中化学物质信息的抽取功能。最后,通过测试分析验证本文设计的化学物质网页信息抽取系统具有较强的可用性。
【关键词】:化学物质信息 Web信息抽取 主题相关性 主题网络爬虫 迭代结构
【学位授予单位】:西北农林科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 绪论10-16
- 1.1 研究背景与意义10
- 1.2 国内外研究现状10-13
- 1.2.1 国外研究现状10-12
- 1.2.2 国内研究现状12-13
- 1.3 研究的主要内容13-14
- 1.4 技术路线14
- 1.5 论文的组织结构14-16
- 第二章 Web信息抽取相关理论与技术介绍16-25
- 2.1 网络爬虫技术16-20
- 2.1.1 主题网络爬虫框架与原理16-17
- 2.1.2 主题网络爬虫技术17-20
- 2.2 Web信息抽取技术20-23
- 2.2.1 Web信息抽取技术分类20-22
- 2.2.2 信息抽取技术评价方法22-23
- 2.3 Roadrunner系统23-24
- 2.4 本章小结24-25
- 第三章 化学物质网页采集方法研究25-37
- 3.1 主题相关性判别技术研究25-32
- 3.1.1 URL主题相关性预测技术25-29
- 3.1.2 网页内容的主题相关性判别技术29-32
- 3.2 主题网络爬虫设计32-33
- 3.3 实验及结果分析33-36
- 3.3.1 主题关键词选取及阈值设置33-34
- 3.3.2 实验结果与分析34-36
- 3.4 本章小结36-37
- 第四章 化学物质Web信息抽取方法研究37-47
- 4.1 网页预处理37-38
- 4.2 基于树结构的抽取规则生成算法研究与实现38-44
- 4.2.1 网页结构分析38-39
- 4.2.2 抽取规则生成算法39-44
- 4.3 数据抽取44-45
- 4.4 实验及结果分析45-46
- 4.5 本章小结46-47
- 第五章 化学物质网页信息抽取系统设计与实现47-53
- 5.1 系统分析与设计47-49
- 5.1.1 系统需求分析47
- 5.1.2 系统结构47-48
- 5.1.3 系统模块设计48-49
- 5.2 系统测试与评价49-52
- 5.2.1 系统测试49-52
- 5.2.2 系统评价52
- 5.3 本章小结52-53
- 第六章 总结与展望53-55
- 6.1 总结53
- 6.2 展望53-55
- 参考文献55-58
- 致谢58-59
- 作者简介59
【相似文献】
中国期刊全文数据库 前10条
1 照格申;蒙文化学物质名称中的词缀问题[J];术语标准化与信息技术;1998年02期
2 姚绍明,刘淑卿,胡俊玲;化学数据库中使用叙词法表述化学物质的讨论[J];现代图书情报技术;1989年02期
3 王太平;汉蒙化学物质分类词汇(一)[J];术语标准化与信息技术;1999年01期
4 晨维;;用激光检测致癌物质[J];激光与光电子学进展;1981年11期
5 冯方平;多途径检索化学物质登记号[J];情报杂志;2004年03期
6 邸晓曼;;化学物质的生物降解技术分析[J];数字化用户;2013年06期
7 王太平;化学物质蒙文命名规则[J];术语标准化与信息技术;1998年04期
8 吴长江;确定化学物质在CA中名称的方法[J];情报探索;2005年05期
9 ;同温层上部臭氧遭破坏并向下延伸[J];成都气象学院学报;1989年02期
10 ;国外安全信息[J];化工劳动保护;1995年01期
中国重要会议论文全文数据库 前10条
1 宋建敏;刘赞;刘玉;;关于青岛市新化学物质环境监管的探讨[A];中国环境科学学会2009年学术年会论文集(第四卷)[C];2009年
2 王华;田新;张骁;;美国对有毒工业化学物质事故的响应行动研究[A];公共安全中的化学问题研究进展(第二卷)[C];2011年
3 党志超;;欧盟化学品REACH法规的挑战与机遇[A];中国毒理学会第五次全国学术大会论文集[C];2009年
4 沈英娃;;新化学物质环境管理简介[A];良好实验室规范(GLP)国家标准及数据共享论坛会议材料[C];2009年
5 郝存兴;马继社;黄军青;赵亮;;常见化学物质泄漏处理方法综述[A];公共安全中的化学问题研究进展(第三卷)[C];2013年
6 方征;余若祯;杨霓云;王宏;周俊丽;刘征涛;;“三致”效应检测系统在新化学物质风险评估体系中的运用[A];中国毒理学会环境与生态毒理学专业委员会成立大会会议论文集[C];2008年
7 夏潮涌;;细胞、组织化学物质定量分析中的误区与陷阱[A];第六届全国生物医学体视学学术会议暨第九届全军军事病理学学术会议、第五届全军定量病理学学术会议论文汇编[C];2005年
8 聂晶磊;刘纯新;高桂华;渠开山;;“绿色化学”与环境保护行政管理[A];中国化学会第26届学术年会化学与社会论坛论文集[C];2008年
9 张效伟;苏冠勇;刘红玲;于红霞;;基于活细胞阵列的化学物质毒性研究与评估技术[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
10 周红;聂晶磊;高映新;;关于全氟辛基磺酸类化学物质的探讨[A];持久性有机污染物论坛2006暨第一届持久性有机污染物全国学术研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 张海涛;新化学物质登记研讨会将召开[N];中国化工报;2007年
2 一凡;新化学物质登记举办首次研讨会[N];医药经济报;2007年
3 刘纯新;第二届新化学物质评审专家委员会成立[N];中国环境报;2007年
4 聂爱萍;美国发布化学物质新用途规则[N];国际商报;2009年
5 中国WTO/TBT-SPS通报咨询中心 供稿;美国发布某些化学物质重要新用途规则[N];中国国门时报;2009年
6 ;《新化学物质环境管理办法》[N];中国环境报;2002年
7 记者 屈遐;生产或进口新化学物质须申报[N];中国环境报;2003年
8 中国染料工业专家顾问团专家顾问 陈荣圻;REACH法规主要内容[N];中国纺织报;2007年
9 谢湘宁;中国版REACH全面启动[N];中国化工报;2007年
10 常纪文;欧盟化学物环境风险预防和控制制度[N];中国环境报;2007年
中国硕士学位论文全文数据库 前10条
1 梁永强;化学物质监控流程优化及SAP物质跟踪系统实施[D];上海交通大学;2014年
2 黄湛艳;食品包装材料PET中小分子化学物质的检测和迁移研究[D];暨南大学;2015年
3 万景瑞;化学物质Web信息获取方法的研究与实现[D];西北农林科技大学;2016年
4 李远航;新化学物质生态毒理学评估与立邦漆分析[D];东北师范大学;2008年
5 杨雪梅;新化学物质生态危害评价模型研究[D];西北农林科技大学;2012年
6 王绿平;工业化学品中PBT物质的危害评估和分类的方法学研究[D];华东师范大学;2013年
7 赵颖;农药类化学物质在土壤中迁移转化的规律及数值模拟[D];辽宁工程技术大学;2005年
8 梁倩;新化学物质生态固有特性预测方法研究[D];西北农林科技大学;2012年
9 冯硕;基于Web挖掘技术的化学物质信息获取方法研究[D];西北农林科技大学;2012年
10 曹巧玲;检测五种小分子化学物质的蛋白芯片技术研究[D];中国人民解放军军事医学科学院;2007年
,本文编号:601596
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/601596.html