面向化工领域的实体关系抽取技术研究

发布时间:2021-03-21 21:33
  化工领域在为我国经济发展做出巨大贡献的同时,化工产品的易燃、易爆等特点致使化工事故也在频繁发生,化工事故无论是对企业还是环境造成的破坏都是巨大的。化工数据专业性和复杂性高、知识密度大,如何快速而准确地从海量的数据中获取有用的知识,从而减少化工生产过程中的不安全因素,减少事故的发生,成为化工领域的一个难点。化工领域信息抽取是攻破这一难点的重要技术手段,而实体关系抽取技术是化工领域信息抽取中必不可少的技术之一。本文针对化工领域实体关系抽取技术进行研究,主要研究内容如下:(1)为了取得化工领域实体关系抽取时所必需的化工领域文本数据集和化工领域实体词典,设计并实现了化工领域数据采集与处理子系统。针对化工领域关系抽取数据多源异构的问题,该子系统可以同时支持在线网络数据的爬取和离线文档数据的导入两种方式来进行化工领域数据的采集工作。对于在线数据该子系统能够自动爬取百度百科中的化工领域网页数据,然后采用XPath和正则表达式等规则提取网页文本数据;对于离线数据运用本文提出的数据转换操作提取其中的数据。本文以该子系统采集到的数据来构造化工领域实体词典和进行关系标注与抽取。(2)为了方便对化工领域数据进... 

【文章来源】:青岛科技大学山东省

【文章页数】:76 页

【学位级别】:硕士

【部分图文】:

面向化工领域的实体关系抽取技术研究


知识图谱体系结构

工作流程图,工作流程,策略,种子


青岛科技大学研究生学位论文7第2章相关技术概述本章介绍本文相关的理论知识和技术方法。包括网络爬虫技术、众包方法、卷积神经网络、GRU神经网络、Dropout策略、注意力机制和Ranger优化器。2.1网络爬虫2.1.1网络爬取方法介绍网络爬虫从功能上讲指的是一种根据需要预定义好爬取规则,然后实现自动地从互联网上爬取用户所需数据的一类软件程序[47],从实现上讲指的是能够模仿浏览器对目标发起http请求来获取所需数据并对获取到的数据进行解析的一类软件程序。网络爬虫通常是由网页请求模块和数据解析模块两部分组成的。现在的网络爬虫技术多数是用于爬取用户所需数据的操作中,本文为了获取所需的化工领域数据集使用了网络爬虫技术。本文所用的网络爬虫的工作流程如图2-1所示。图2-1网络爬虫工作流程Fig.2-1webcrawlerworkflow网络爬虫任务首先是将用户定义的种子URL集合作为初始URL种子集队列,然后进行一个迭代抓取操作。选择合适的种子URL集合是爬虫系统能够高效运行的重要前提,常用的方法是:基于目标网页的特点、基于目标数据的类型和基于各个领域[48]。然后选择合适的爬取策略进行爬取数据,网络爬虫的爬取策略一般是广度优先策略或深度

网络结构图,网络结构,队列,网页


面向化工领域的实体关系抽取技术研究8优先策略。以图2-2所示的网络结构简图为例来进行讲解,其中A指向B,B指向E和F表示网页A中的内容包含网页B的链接,网页B中的内容包含网页E和F的链接。图2-2网络结构简图Fig.2-2Networkstructuresimplifieddiagram使用广度优先策略进行爬取,首先判断初始URL种子集队列是否为空,为空时退出;不为空时,将初始URL队列中的URL放到待抓取队列中,然后模仿浏览器的操作对该URL发起http请求,下载该URL对应的网页中的相关内容并解析该内容;接下来,从其中提取出新的URL并进行去重处理,去除掉已经被抓取过的URL,将去重后的URL加入到待抓取队列中,开始下一个地址的爬取工作,直到待抓取队列为空。例如在图2-2所示网络结构图中的广度优先爬取路径如表2-1所示。表2-1广度优先爬取路径Tab.2-1Breadth-firstcrawlpath路径编号路径1A2B->C->D3E->F->G->H4I5J使用深度优先策略进行爬取,假设初始URL种子集队列为L1,首先判断L1是否为空,为空时退出;不为空时,将队列L1中的URL放到待抓取队列中,然后模仿浏览器的操作对该URL发起http请求,下载该URL对应的网页中的相关内容并解析该内容;取出在该页面中的所有相关的URL链接,并存入到一个新创建的队列L2中,然后对队列L2重复之前对队列L1所做的操作;接着创建新队列L3,一直进行递归爬取操作,当下一级的队列全部被解析后,才会回到上一级队列中的下一个地址再继续进行解析,直

【参考文献】:
期刊论文
[1]汉藏双语旅游领域知识图谱系统构建[J]. 冯小兰,赵小兵.  中文信息学报. 2019(11)
[2]基于多特征自注意力BLSTM的中文实体关系抽取[J]. 李卫疆,李涛,漆芳.  中文信息学报. 2019(10)
[3]基于卷积循环神经网络的关系抽取[J]. 宋睿,陈鑫,洪宇,张民.  中文信息学报. 2019(10)
[4]基于混合神经网络的实体和事件联合抽取方法[J]. 吴文涛,李培峰,朱巧明.  中文信息学报. 2019(08)
[5]基于改进词向量GRU神经网络模型的藏语实体关系抽取[J]. 孙媛,王丽客,郭莉莉.  中文信息学报. 2019(06)
[6]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.  软件学报. 2019(06)
[7]聊天机器人中用户就医意图识别方法[J]. 余慧,冯旭鹏,刘利军,黄青松.  计算机应用. 2018(08)
[8]基于注意力机制的LSTM的语义关系抽取[J]. 王红,史金钏,张志伟.  计算机应用研究. 2018(05)
[9]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军.  计算机学报. 2017(06)
[10]基于句法语义特征的中文实体关系抽取[J]. 甘丽新,万常选,刘德喜,钟青,江腾蛟.  计算机研究与发展. 2016(02)

硕士论文
[1]基于Hadoop的分布式网络爬虫的研究与实现[D]. 刘星辰.西安理工大学 2019
[2]基于LSTM的实体关系抽取研究[D]. 冯贤鹤.云南财经大学 2019
[3]基于深度学习的实体关系抽取研究[D]. 温政.太原理工大学 2019
[4]基于深度学习的中文信息抽取研究[D]. 姜猛.贵州大学 2019
[5]基于深度循环神经网络的关系抽取方法研究[D]. 李岩.河南大学 2019
[6]基于远程监督的关系抽取方法研究[D]. 王亚岛.哈尔滨工业大学 2019
[7]基于深度学习的中文文本实体关系抽取研究与实现[D]. 佘恒.北京邮电大学 2019
[8]基于深度学习的中文实体关系抽取方法研究[D]. 唐敏.西南交通大学 2018
[9]基于卷积神经网络的关系抽取方法研究[D]. 沈柳笛.哈尔滨工程大学 2018
[10]基于高实时分布式网络的爬虫软件设计与实现[D]. 张峰.浙江大学 2018



本文编号:3093576

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3093576.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b23be***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com