面向企业图谱构建的中文命名实体识别技术研究
发布时间:2021-12-16 16:01
命名实体识别是信息抽取、机器翻译、知识图谱等应用领域的重要基础工具,在自然语言处理技术走向实用化过程中有着重要地位。在中文命名实体识别研究落后于英文命名实体识别研究以及深度学习兴起的背景下,本文面向企业图谱的构建这一目标,基于深度神经网络模型,深入研究了图谱构建过程中涉及的中文命名实体识别技术。论文的主要工作如下:在经典的BiLSTM-CRF命名实体识别模型的基础上融入Self-Attention,提出了SA-BiLSTM-CRF模型。实验证明该模型能够有效提取远距离依赖信息,有着更好的识别效果。并且发现BiLSTM与Self-Attention结合时使用双向结合的方式比单一结合的方式效果更好。验证了SA-BiLSTM-CRF模型中能够较好地通过LSTM学习到单词位置信息而不需要Positin Embedding。发现Multi-Head机制则能够提升模型效果,但是抽头过多容易过拟合。为了将SA-BiLSTM-CRF模型应用于标注语料较少的企业领域,针对标注语料少、深度网络模型难以训练的问题,分别基于迁移学习、自学习、主动学习、自学习与主动学习相结合四种思路提出了四种优化策略。实验验证...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
企业图谱展示
【参考文献】:
期刊论文
[1]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[2]迁移学习研究进展[J]. 庄福振,罗平,何清,史忠植. 软件学报. 2015(01)
[3]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[4]主动学习研究综述[J]. 龙军,殷建平,祝恩,赵文涛. 计算机研究与发展. 2008(S1)
本文编号:3538424
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
企业图谱展示
【参考文献】:
期刊论文
[1]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[2]迁移学习研究进展[J]. 庄福振,罗平,何清,史忠植. 软件学报. 2015(01)
[3]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[4]主动学习研究综述[J]. 龙军,殷建平,祝恩,赵文涛. 计算机研究与发展. 2008(S1)
本文编号:3538424
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3538424.html