面向产业合作的半监督关系抽取
发布时间:2021-04-16 00:34
在产业互联网蓬勃发展的今天,对产业合作场景进行分析,实现全球精准合作,已经成为产业发展的必然趋势,这不仅对政府决策人员具有重要参考意义,也为企业决策者提供了指导意义。产业合作相关信息广泛存在于互联网的产业新闻资讯中,利用大数据和人工智能技术,从非结构化的新闻资讯中抽取出结构化的产业合作信息,并进而组织成为知识,具有十分重要的应用价值和现实意义。对于产业合作这一细分领域,没有合适的标注数据集用来构建信息抽取模型,因此数据集的构建也成为产业合作信息抽取任务中的难点与关键点。本文关注产业合作场景中产业合作关系的抽取,设计并实现了针对产业合作领域的关系抽取框架,能够从产业新闻资讯中抽取企业实体和企业间的合作关系。框架中涵盖了从数据清洗到抽取结果整合的完整流程,包含基于模式匹配的规则抽取和基于机器学习的模型抽取两条数据通路,能够自动化完成产业合作领域的关系抽取。此外,本文针对框架中的相关企业抽取模型和产业合作关系抽取模型进行了优化。针对实体抽取模型,通过词向量和词性信息获得组合特征,并在网络结构上使用多层CNN+双向LSTM的方案,能够结合局部特征和全局特征,带来更好的模型效果。针对关系抽取模型...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
主动学习、直推式学习、纯半监督学习[44]
浙江大学硕士学位论文第2章相关技术综述15不完全、不确切和不准确监督分别关注不同的角度,拥有各自不同的特点,但在实际应用中,他们经常同时出现。在关系抽取任务中,经常使用远程监督的方式构建训练集,方法是使用实体关系对知识库进行语料对齐,知识库包含了关系和符合该关系的两个实体,通过在无标注的文本中反向标注,找到同时含有两个实体的句子,将这个句子标注为对应的关系,最终将这些句子和标签作为训练集训练模型。基于远程监督的关系抽取假设反向标注获得的所有句子中总有一个是正样本,也就是说其中存在不表示该关系的句子被打上了错误的标签,相当于不准确监督,各种去噪降噪方法也都逐渐应用到这一任务中。2.3神经网络技术人工神经网络(ArtificialNeuralNetwork,ANN),简称神经网络,是一种模拟人的神经元而构建的计算模型,McCulloch[47]等人提出了神经元的数学模型,如图2-2所示:图2-2神经元数学模型[47]神经元包含多个输入和一个输出,每个输入被赋予不同的权重进行加权求和,再通过一个激活函数进行非线性变换,产生最终的输出。单个神经元的数学公式如(2-1)所示:niiixwfy1(2-1)
TextCNN结构[49]
【参考文献】:
期刊论文
[1]关系抽取综述[J]. 谢德鹏,常青. 计算机应用研究. 2020(07)
[2]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
[3]基于句法语义特征的中文实体关系抽取[J]. 郭喜跃,何婷婷,胡小华,陈前军. 中文信息学报. 2014(06)
[4]基于图的半监督关系抽取[J]. 陈锦秀,姬东鸿. 软件学报. 2008(11)
本文编号:3140391
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
主动学习、直推式学习、纯半监督学习[44]
浙江大学硕士学位论文第2章相关技术综述15不完全、不确切和不准确监督分别关注不同的角度,拥有各自不同的特点,但在实际应用中,他们经常同时出现。在关系抽取任务中,经常使用远程监督的方式构建训练集,方法是使用实体关系对知识库进行语料对齐,知识库包含了关系和符合该关系的两个实体,通过在无标注的文本中反向标注,找到同时含有两个实体的句子,将这个句子标注为对应的关系,最终将这些句子和标签作为训练集训练模型。基于远程监督的关系抽取假设反向标注获得的所有句子中总有一个是正样本,也就是说其中存在不表示该关系的句子被打上了错误的标签,相当于不准确监督,各种去噪降噪方法也都逐渐应用到这一任务中。2.3神经网络技术人工神经网络(ArtificialNeuralNetwork,ANN),简称神经网络,是一种模拟人的神经元而构建的计算模型,McCulloch[47]等人提出了神经元的数学模型,如图2-2所示:图2-2神经元数学模型[47]神经元包含多个输入和一个输出,每个输入被赋予不同的权重进行加权求和,再通过一个激活函数进行非线性变换,产生最终的输出。单个神经元的数学公式如(2-1)所示:niiixwfy1(2-1)
TextCNN结构[49]
【参考文献】:
期刊论文
[1]关系抽取综述[J]. 谢德鹏,常青. 计算机应用研究. 2020(07)
[2]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
[3]基于句法语义特征的中文实体关系抽取[J]. 郭喜跃,何婷婷,胡小华,陈前军. 中文信息学报. 2014(06)
[4]基于图的半监督关系抽取[J]. 陈锦秀,姬东鸿. 软件学报. 2008(11)
本文编号:3140391
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3140391.html
最近更新
教材专著