基于样本迁移学习的中文分词领域自适应方法的研究
发布时间:2020-06-07 05:34
【摘要】:中文分词是指把一句汉语按照一定规范切分为一个个单独的词,是中文自然语言处理(Natural Language Processing,NLP)的一个基础任务,也是信息检索、知识图谱以及机器翻译等其它NLP任务的关键底层任务。近年来,随着深度学习的发展,基于神经网络的分词方法在自然语言处理领域得到广泛应用。不同于传统的基于规则和统计的分词方法,神经网络方法利用大规模标注数据训练得到泛化能力强的模型。然而中文分词任务具有极强的领域适应性,通常在一个领域训练得到的分词模型应用于其它领域时性能会有所下降。而目前公开的中文分词数据集多为新闻领域,因此如何利用资源丰富的领域数据去提高资源匮乏领域的分词性能就变得尤为重要。本文主要研究中文分词的领域适应性问题,当前中文分词的领域自适应研究主要存在两方面挑战:一方面,相同的单词在不同领域内的上下文和含义都有可能不同,导致歧义切分问题;另一方面,不同领域所包含的领域内词汇不尽相同,导致无法有效识别未登录词。针对以上挑战,本文提出基于样本迁移学习的中文分词领域自适应方法。该方法的主要思想是通过分析源领域和目标领域数据的特点,选择小规模有价值的样本进行标注,然后利用标注后的样本来帮助训练分词模型,从而提高模型的领域自适应能力。本文的主要贡献如下:(1)针对当前主流的神经网络中文分词系统BiLSTM-CRF,提出了融合注意力机制和融合Bert语言模型两种改进方案,分别为Att-BiLSTM-CRF框架和Bert-BiLSTM-CRF框架。其中注意力机制增加了历史信息,Bert语言模型融入了更多的语义特征;(2)针对中文分词的领域适应性问题,通过分析源领域数据和目标领域数据的特点,提出了基于n元字向量的相似性计算方法,借助该方法可以选出与源领域结构相似且包含未登录词的目标领域样本;(3)针对中文分词的领域适应性问题,提出了基于样本迁移的中文分词领域自适应方法。在样本迁移过程时,本文提出基于相似性和不确定性的采样策略来选择样本,并对模型的标注结果进行修正,避免了负迁移现象。本文研究是利用样本迁移改善领域适应性问题的进一步尝试。实验结果表明,本文方法能够有效地增强模型的领域自适应能力,提高中文分词精度。
【图文】:
切分结果(输出序列)r,然后通过定义条件概率来描述模型。CRF的输逡逑入随机变量作为条件,而输出随机变量假设是一个无向图模型或者马尔科夫随机逡逑场。CRF的图模型结构理论上可以任意给定,图2-2展示了一个最简单的线性链逡逑条件随机场。逡逑a逦y2逦l邋厂,逡逑g ̄ ̄ ̄g—逡逑图2-2条件随机场链式结构图逡逑Figure2-2邋CRF邋chain-structured邋graph逡逑综上所述,设有线性链结构的随机变量序列Z邋=邋(xpx2,...,;cJ,逡逑r=CFpy2,...,;0,在给定观测序列x的条件下,随机变量序列r的条件概率分布逡逑11逡逑
的输出则根据网络的连接方式、权重值和激励函数的不同而有所不同。神经网络逡逑可以被看作是一种数学模型或计算模型,目的是对某个函数的进行估计逡逑或近似,其中 ̄代表神经网络中的参数。图2-4描述了一个简单的神经网络,最左逡逑边一层是输入层,中间是隐藏层,右侧是输出层。其中输入层接受数据输入,输逡逑出层输出模型的结果。图2-4中仅有一个隐藏层,有些网络也可以有多个隐藏层。逡逑桑:逡逑输入层逦隐层邋输出层逡逑图2-4yL经网络结构图逡逑Figure2-4邋Neural邋network邋structure逡逑神经网络分词方法把中文分词任务看作是一个序列标注任务,输入是一句话,逡逑输出是一个标签序列。一般来说,每个汉字都可以被标注为集合L邋=邋{5,M,五,,R中逡逑的一个,它们分别表示单词的开始、中间、结束和一个单独的词。例如已分词句逡逑子“我来自山东省。”对应的标注序列为“SBEBMES”。逡逑给定一个长度为/的句子义,中文分词任务的目的就是找出最优逡逑的标注序列;.,心,求解过程如公式(2-7)所示:逡逑y^argmax^FIX)逦(2-7)逡逑Yel!逡逑其中Z邋=邋五
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP181
本文编号:2700925
【图文】:
切分结果(输出序列)r,然后通过定义条件概率来描述模型。CRF的输逡逑入随机变量作为条件,而输出随机变量假设是一个无向图模型或者马尔科夫随机逡逑场。CRF的图模型结构理论上可以任意给定,图2-2展示了一个最简单的线性链逡逑条件随机场。逡逑a逦y2逦l邋厂,逡逑g ̄ ̄ ̄g—逡逑图2-2条件随机场链式结构图逡逑Figure2-2邋CRF邋chain-structured邋graph逡逑综上所述,设有线性链结构的随机变量序列Z邋=邋(xpx2,...,;cJ,逡逑r=CFpy2,...,;0,在给定观测序列x的条件下,随机变量序列r的条件概率分布逡逑11逡逑
的输出则根据网络的连接方式、权重值和激励函数的不同而有所不同。神经网络逡逑可以被看作是一种数学模型或计算模型,目的是对某个函数的进行估计逡逑或近似,其中 ̄代表神经网络中的参数。图2-4描述了一个简单的神经网络,最左逡逑边一层是输入层,中间是隐藏层,右侧是输出层。其中输入层接受数据输入,输逡逑出层输出模型的结果。图2-4中仅有一个隐藏层,有些网络也可以有多个隐藏层。逡逑桑:逡逑输入层逦隐层邋输出层逡逑图2-4yL经网络结构图逡逑Figure2-4邋Neural邋network邋structure逡逑神经网络分词方法把中文分词任务看作是一个序列标注任务,输入是一句话,逡逑输出是一个标签序列。一般来说,每个汉字都可以被标注为集合L邋=邋{5,M,五,,R中逡逑的一个,它们分别表示单词的开始、中间、结束和一个单独的词。例如已分词句逡逑子“我来自山东省。”对应的标注序列为“SBEBMES”。逡逑给定一个长度为/的句子义,中文分词任务的目的就是找出最优逡逑的标注序列;.,心,求解过程如公式(2-7)所示:逡逑y^argmax^FIX)逦(2-7)逡逑Yel!逡逑其中Z邋=邋五
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP181
【参考文献】
相关期刊论文 前9条
1 韩冰;刘一佳;车万翔;刘挺;;基于感知器的中文分词增量训练方法研究[J];中文信息学报;2015年05期
2 许华婷;张玉洁;杨晓晖;单华;徐金安;陈钰枫;;基于Active Learning的中文分词领域自适应[J];中文信息学报;2015年05期
3 韩冬煦;常宝宝;;中文分词模型的领域适应性方法[J];计算机学报;2015年02期
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[J];中文信息学报;2012年02期
5 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
6 张李义;李亚子;;基于反序词典的中文逆向最大匹配分词系统设计[J];现代图书情报技术;2006年08期
7 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
8 肖志辉,张祖荫,韩少杰;智能出卷测试系统的设计与实现[J];计算机工程与应用;2000年10期
9 路志英,林孔元,郭祺,段广玉;中文切分词典的最大匹配索引法[J];天津大学学报;1999年05期
相关硕士学位论文 前2条
1 岳中原;词典与统计相结合的中文分词的研究[D];武汉理工大学;2010年
2 戴文渊;基于实例和特征的迁移学习算法研究[D];上海交通大学;2009年
本文编号:2700925
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2700925.html