当前位置:主页 > 科技论文 > 软件论文 >

基于深度学习的半监督式命名实体识别

发布时间:2021-01-10 18:08
  命名实体识别是自然语言处理的一项基础任务,也是机器翻译、智能问答、知识图谱等相关领域的底层技术。深度学习技术因其自动高效的特征表达与分类能力在命名实体识别任务中已取得巨大的进展。现有的深度学习命名实体识别方法大多为有监督的训练方法,没有利用无标注数据来增强模型的泛化能力。因此,本文针对半监督的命名实体识别方法进行了研究。论文主要工作内容如下:本文首先对中文和外文命名实体识别方法的研究现状进行了调研,分析和总结了基于统计和基于深度学习的命名实体识别方法原理,在总结了各方法优缺点的基础上,提出了一种半监督的命名实体识别方法。利用大量的无标注数据创建与有标注数据的相似句来约束训练语料的标注序列,减少了模型对有标注数据的依赖。实验表明,创建的相似句可以有效的纠正训练语料的标注序列。该模型在SIGHAN Bakeoff MSRA中文命名实体识别数据集中F1值取得了92.13%,与基线模型相比提高了0.41%。其次,为了使长短时记忆网络更精确的提取句子较远的特征信息,提出了一种融合顺序遗忘编码结合循环神经网络的命名实体识别算法。将顺序遗忘编码的静态编码方式与循环神经网络的动态遗忘方式相结合,增强了... 

【文章来源】:沈阳工业大学辽宁省

【文章页数】:40 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 外文命名实体识别研究现状
        1.2.2 中文命名实体识别研究现状
        1.2.3 半监督命名实体识别研究现状
    1.3 研究内容及论文结构
第2章 命名实体识别方法
    2.1 命名实体识别标注策略
    2.2 基于统计的方法
        2.2.1 隐马尔可夫模型
        2.2.2 条件随机场
    2.3 Bi-LSTM-CRF模型
        2.3.1 词向量
        2.3.2 LSTM
        2.3.3 Bi-LSTM+CRF框架
第3章 半监督命名实体识别方法
    3.1 原理介绍
    3.2 相似句构造
    3.3 目标函数
    3.4 SEMI+Bi-LSTM+CRF模型
    3.5 实验
        3.5.1 数据介绍
        3.5.2 实验结果及分析
第4章 基于顺序遗忘编码的命名实体识别方法
    4.1 顺序遗忘编码
    4.2 注意力机制
    4.3 FOFE+Bi-LSTM+CRF框架
    4.4 实验
第5章 结论与展望
参考文献
在学研究成果
致谢


【参考文献】:
期刊论文
[1]融入自注意力机制的社交媒体命名实体识别[J]. 李明扬,孔芳.  清华大学学报(自然科学版). 2019(06)
[2]基于深层条件随机场的生物医学命名实体识别[J]. 孙晓,孙重远,任福继.  模式识别与人工智能. 2016(11)
[3]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才.  通信学报. 2006(02)
[4]中文姓名的自动辨识[J]. 孙茂松,黄昌宁,高海燕,方捷.  中文信息学报. 1995(02)



本文编号:2969169

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2969169.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4484d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com