面向少量标注数据的中文命名实体识别技术研究
发布时间:2021-11-25 22:59
人工智能的第三次浪潮正在改变着人类的生活。作为人工智能的一个分支,自然语言处理技术能够帮助机器分析理解人类的自然语言,是连接人类语言和机器的桥梁。而命名实体识别作为自然语言处理的基础技术之一,它的准确与否对后续任务如信息检索、推荐系统、情感分析等起着至关重要的作用。其中,中文命名实体识别由于语言的特殊性和复杂性,在命名实体识别研究工作中备受关注。高性能模型需要大量的标注训练集用于模型训练泛化,而高质量中文标注数据由于其高成本已经成为影响人工智能算法性能的最大瓶颈之一。因此面向少量标注数据的中文命名实体识别的研究工作具有重要的现实意义和应用价值。本文以少量标注数据应用场景下的中文命名实体识别为研究对象,从减少所需标注数据量和减少单位样本标注成本两方面出发,利用主动学习、迁移学习以及规则与统计混合的方法,致力于在使模型达到一定精度的条件下减少所需的标注成本。本文研究工作包括:(1)为避免基于不确定性的样本选择策略的局限性,制定一种基于不确定性和代表性的主动学习样本选择策略并应用于中文命名实体识别任务。在通用和领域语料上充分对比几种不同样本选择策略在提升模型泛化能力方面的作用。(2)提出一种...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图1.1论文组织结构??论文组织结构如图1.1所示
2.2主动学习??模型具备高性能的前提是需要大量的标注训练集用于模型训练泛化。那么模??型的性能是否和训练集的大小成正比?相关研究通过实验发现,如图2.1所示,??机器学习模型的性能并不是如左图——随着训练数据集的扩充呈线性增长。实际??上,随着训练集样本数目的増加,在开始阶段学习模型的性能会得到快速提升。??当训练集的样本数目达到某一临界值时,学习模型的性能逐渐趋于稳定,即使训??练样本数继续增加,模型也基本不再发生变化。因此在一定训练集样本数目的条??件下,更高效地利用训练集中有价值的样本,使模型性能得到快速提升,在一定??程度上能够减少对标注数据量的需求,降低标注成本。如图2.1右图中虚线所示。??performance?performance??〇〇?〇〇??#?of?training?dataset??图2.〗模型性能与训练集规模的关系??主动学习通过一定的算法查询最有用的未标记样本,并交由专家标注,然后??将带标注样本加入训练样本集迭代训练提升模型性能。如何在缺乏足够标注训练??数据的条件下克服标注瓶颈,以低标注成本训练高性能模型是主动学习研究的热??点问题。??12?
的不同表示子空间中获取信息,通过使用多组的参数矩阵来分别对2、尺、F进行??线性变换,并将所有自注意力机制的结果进行拼接得到最后自注意力机制的结果,??多头自注意力机制结构见图2.2。??MultiHead(Q,K,V)?=?ConcatQieadi,?"”headh)W0??where?headt?=?Attention{QW^,?KW^,?VW^)?公式(2.4)??t??f??Linear??MatMul?|??i?t?i?1?[?Go门cat??[SoftMax?I?1 ̄rr ̄??|?Mask?(opt,)?Scaled?Dot-Product????Attention?0??Scale?士?i?[?il??[ ̄MatMul?|?Linear?U?Linear?J?Linear?p??tt??〇?K?V?::??V?K?Q??图2.2单头(左)和多头(右)注意力机制[38]??而缩放因子是为了避免由于维度过高导致点乘结果过大,从而造成的梯度过??小情况。Transformer模型中缩放因子取自注意力机制的数学表达式如公式??(2.5)所示:??AttentioniQ
【参考文献】:
期刊论文
[1]主动学习与自学习的中文命名实体识别[J]. 钟志农,刘方驰,吴烨,伍江江. 国防科技大学学报. 2014(04)
[2]中文机构名称的识别与分析[J]. 张小衡,王玲玲. 中文信息学报. 1997(04)
[3]中文姓名的自动辨识[J]. 孙茂松,黄昌宁,高海燕,方捷. 中文信息学报. 1995(02)
本文编号:3518950
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图1.1论文组织结构??论文组织结构如图1.1所示
2.2主动学习??模型具备高性能的前提是需要大量的标注训练集用于模型训练泛化。那么模??型的性能是否和训练集的大小成正比?相关研究通过实验发现,如图2.1所示,??机器学习模型的性能并不是如左图——随着训练数据集的扩充呈线性增长。实际??上,随着训练集样本数目的増加,在开始阶段学习模型的性能会得到快速提升。??当训练集的样本数目达到某一临界值时,学习模型的性能逐渐趋于稳定,即使训??练样本数继续增加,模型也基本不再发生变化。因此在一定训练集样本数目的条??件下,更高效地利用训练集中有价值的样本,使模型性能得到快速提升,在一定??程度上能够减少对标注数据量的需求,降低标注成本。如图2.1右图中虚线所示。??performance?performance??〇〇?〇〇??#?of?training?dataset??图2.〗模型性能与训练集规模的关系??主动学习通过一定的算法查询最有用的未标记样本,并交由专家标注,然后??将带标注样本加入训练样本集迭代训练提升模型性能。如何在缺乏足够标注训练??数据的条件下克服标注瓶颈,以低标注成本训练高性能模型是主动学习研究的热??点问题。??12?
的不同表示子空间中获取信息,通过使用多组的参数矩阵来分别对2、尺、F进行??线性变换,并将所有自注意力机制的结果进行拼接得到最后自注意力机制的结果,??多头自注意力机制结构见图2.2。??MultiHead(Q,K,V)?=?ConcatQieadi,?"”headh)W0??where?headt?=?Attention{QW^,?KW^,?VW^)?公式(2.4)??t??f??Linear??MatMul?|??i?t?i?1?[?Go门cat??[SoftMax?I?1 ̄rr ̄??|?Mask?(opt,)?Scaled?Dot-Product????Attention?0??Scale?士?i?[?il??[ ̄MatMul?|?Linear?U?Linear?J?Linear?p??tt??〇?K?V?::??V?K?Q??图2.2单头(左)和多头(右)注意力机制[38]??而缩放因子是为了避免由于维度过高导致点乘结果过大,从而造成的梯度过??小情况。Transformer模型中缩放因子取自注意力机制的数学表达式如公式??(2.5)所示:??AttentioniQ
【参考文献】:
期刊论文
[1]主动学习与自学习的中文命名实体识别[J]. 钟志农,刘方驰,吴烨,伍江江. 国防科技大学学报. 2014(04)
[2]中文机构名称的识别与分析[J]. 张小衡,王玲玲. 中文信息学报. 1997(04)
[3]中文姓名的自动辨识[J]. 孙茂松,黄昌宁,高海燕,方捷. 中文信息学报. 1995(02)
本文编号:3518950
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3518950.html
最近更新
教材专著