当前位置:主页 > 科技论文 > 软件论文 >

基于跨语言迁移的无监督命名实体识别研究

发布时间:2021-11-27 06:44
  命名实体作为自然语言文本的关键语义信息,其识别与分类是目前自然语言处理研究中的重要研究内容。随着深度学习技术在多数语言处理任务上的普遍应用,基于深度神经网络的命名实体识别模型已经取得了较好的性能。而深度神经网络模型的成功往往依赖于规模较大的标注数据。对于使用人数较多且语料资源丰富的语言而言,获取相应的手工标注数据可能相对容易。然而,对于大多数的低资源语言而言,其用于该任务的人工标注数据规模往往较小,甚至可能不存在,且在这些语言上进行人工标注也显得较为困难。针对低资源语言上缺少命名实体识别标注数据的现状,本文的研究主要围绕如何充分地利用资源丰富语言上的手工标注数据,通过跨语言迁移将其迁移到资源稀缺语言上,从而完成低资源语言上的命名实体识别任务。本文主要针对资源稀缺语言的命名实体识别任务中的无监督应用场景,即语言中不存在任何该任务的手工标注数据的情况。围绕该极端应用场景,本文的研究主要包含以下三个方面。(1)研究跨语言投影的无监督命名实体识别方法。针对低资源语言不存在任何标注数据的情况,对于如何利用资源丰富语言上的标注数据,本文通过两种不同的跨语言投影标注方法将高资源语言上的人工标注数据迁... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题背景
    1.2 研究的目的与意义
    1.3 研究现状
        1.3.1 命名实体识别研究现状
        1.3.2 跨语言迁移研究现状
    1.4 论文主要研究内容
    1.5 论文组织结构
第2章 基于投影的跨语言无监督命名实体识别
    2.1 基于词对齐的跨语言命名实体识别方法
        2.1.1 双语词对齐
        2.1.2 基于词对齐的实体标签投影
    2.2 基于跨语言词向量的跨语言命名实体识别
        2.2.1 跨语言词向量
        2.2.2 基于跨语言词向量的实体标签映射
    2.3 融合注意力机制的神经网络命名实体识别模型
        2.3.1 基于神经网络的端到端命名实体识别模型
        2.3.2 融合注意力机制的神经命名实体识别模型
    2.4 实验结果与分析
        2.4.1 实验数据
        2.4.2 评价指标
        2.4.3 实验设置
        2.4.4 实验结果与分析
    2.5 本章小结
第3章 基于迁移学习的无监督命名实体识别方法
    3.1 面向命名实体识别的跨语言迁移学习模型
    3.2 基于迁移模型后验正则的无监督命名实体识别方法
        3.2.1 后验正则
        3.2.2 迁移模型作为后验正则的无监督命名实体识别方法
    3.3 命名实体识别与迁移学习的联合训练框架
        3.3.1 联合训练框架
        3.3.2 基于EM迭代的训练算法
    3.4 实验结果与分析
        3.4.1 实验数据
        3.4.2 实验设置
        3.4.3 实验结果与分析
        3.4.4 实例分析
    3.5 本章小结
第4章 基于双语数据的跨语言无监督命名实体识别
    4.1 基于双语数据的命名实体识别
        4.1.1 双语资源在自然语言处理中的应用
        4.1.2 基于双语数据的无监督命名实体识别方法
    4.2 基于词对齐的双语无监督数据过滤
    4.3 融合双语数据的无监督命名实体识别模型的训练
    4.4 实验结果与分析
        4.4.1 实验数据
        4.4.2 实验设置
        4.4.3 实验结果与分析
        4.4.4 实例分析
    4.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢



本文编号:3521754

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3521754.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c4ace***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com