基于CNN和双向LSTM的中文分词与词性标注一体化模型
发布时间:2021-04-09 20:15
中文分词与词性标注是中文自然语言处理中两个最为基础的部分,其精度与性能对后续诸多任务都具有至关重要的影响。经过几十年的研究和发展,中文分词与词性标注的解决方法由早期基于词典与规则的简单匹配算法,发展到基于各种统计机器学习模型的方法,再到近几年流行的深度学习方法。考虑到先分词后词性标注的流水线模型的不足,本文使用基于深度学习的中文分词与词性标注一体化模型在一个步骤中同时处理中文分词与词性标注两个任务,主要工作包含如下三个部分:1.基于BiRNN-CRF(bidirectional recurrent neural network-conditional random fields)序列标注模型,完成中文分词与词性标注工作。具体而言,基于序列标注的思想,将字向量作为模型的底层输入;中间层采用带有长短期记忆单元的循环神经网络对句子信息进行建模,充分捕捉句子的上下文依赖关系,自动提取有效特征;输出层则使用条件随机场对标签之间的依赖关系进行刻画,提高标签预测精度。2.在BiRNN-CRF框架的基础之上,引入神经网络语言模型作为辅助任务,与中文分词与词性标注任务进行联合训练;并进一步引入Highw...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
–1Zheng等人的神经网络框架[14]
上海交通大学硕士学位论文第一章绪论其模型复杂度较高。图1–2Cai等人的神经网络框架[20]Figure1–2NeuralNetworkModelArchitectureofCaietal.[20]在基于字序列标注的中文分词模型之外,Cai等人[20]于2016年提出一种新型的分词模型,其模型框架如图1–2所示。他们的模型完全不同于以往的序列标注模型,大体上由打分和解码两部分组成。打分部分使用带门结构的神经网络对候选词进行打分,判断词语的合法性与流畅性,避免了固定滑动窗口大小的限制,能够更为有效地利用历史信息;解码部分负责搜索概率最大的词语序列,采用的是典型的集束搜索算法,解码效率能够得到保证。通过这种由字而词由词而句的方式,取得了很好的分词效果,是在序列标注框架之外一次成功的尝试。除了上述两种主要方法之外,基于切分动作匹配和基于转移的神经网络分词方法也得到了一定程度的研究和探索,并取得了一定的成果,但整体而言效果不及上述方法,本文便不再赘述。总而言之,基于深度学习的中文分词方法是近年来中文分词研究领域的主流方法,取得了许多成功的经验和结果。但是,相比于传统的分词方法而言,基于深度学习的分词方法在分词精度方面优势并不绝对,同时训练和预测效率较低,尚存在许多优化和提升的空间。—5—
上海交通大学硕士学位论文第二章中文分词与词性标注一体化模型图2–1中文分词与词性标注一体化模型整体框架Figure2–1JointModelArchitecture输入层之后是隐藏层,此处隐藏层指的是广义上的中间层,而非一般前馈神经网络中的隐藏层。具体而言,隐藏层使用循环神经网络对整个句子的上下文信息进行建模。为了既能利用过去的信息(上文)又能利用将来的信息(下文),本文采用双向循环神经网络;同时为了避免梯度消失与梯度爆炸所带来的训练问题,本文采用基于长短期基于单元的循环神经网络。此外,为了充分利用原始语料中所包含的语法和语义信息,本文创新性引入神经网络语言模型作为辅助任务与主任务进行联合训练;同时为了调和语言模型与序列标注问题之间的差异性,引入HighwayNetwork[41]进行进一步的非线性变换。关于语言模型联合训练的问题将在本章第四节进行叙述。隐藏层之后是输出层,输出层为句子中每一个字预测一个标签。为了对标签之间的依赖关系进行显式的建模,本文在输出层使用了经典的条件随机场,并使用维特比算法进行输出标签的预测,其具体细节见本章第五节。2.2标签策略表2–1早期中文分词标签集示例Table2–1ExamplesofChineseWordSegmentationTagset四元标签集三元标签集二元标签集标签说明标签说明标签说明B(LL)开头B开头开头StartM(MM)中间I中间或结尾E(RR)结尾非开头NoStartS(LR)单字词O单字词概括而言,中文分词与词性标注所需要的标注标签是中文分词标签与词性标注标签的笛卡尔积。—10—
【参考文献】:
期刊论文
[1]论汉语字词的语用频率及其分布规律[J]. 龚嘉镇. 中国文字研究. 2017(02)
[2]基于CNN和LSTM混合模型的中文词性标注[J]. 谢逸,饶文碧,段鹏飞,陈振东. 武汉大学学报(理学版). 2017(03)
[3]基于SVMTool的中文词性标注[J]. 王丽杰,车万翔,刘挺. 中文信息学报. 2009(04)
[4]一种基于规则优先级的词性标注方法[J]. 王广正,王喜凤. 安徽工业大学学报(自然科学版). 2008(04)
[5]一种用于词性标注的相关投票融合策略[J]. 郭永辉,吴保民,王炳锡. 中文信息学报. 2007(02)
[6]基于条件随机场(CRFs)的中文词性标注方法[J]. 洪铭材,张阔,唐杰,李涓子. 计算机科学. 2006(10)
[7]基于完全二阶隐马尔可夫模型的汉语词性标注[J]. 梁以敏,黄德根. 计算机工程. 2005(10)
[8]北京大学现代汉语语料库基本加工规范[J]. 俞士汶,段慧明,朱学锋,孙斌. 中文信息学报. 2002(05)
[9]现代汉语语法信息词典规格说明书[J]. 俞士汶,朱学锋,王惠,张芸芸. 中文信息学报. 1996(02)
[10]齐夫定律的理论基础及其实践意义[J]. 张忠友. 情报科学. 1989(05)
本文编号:3128248
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
–1Zheng等人的神经网络框架[14]
上海交通大学硕士学位论文第一章绪论其模型复杂度较高。图1–2Cai等人的神经网络框架[20]Figure1–2NeuralNetworkModelArchitectureofCaietal.[20]在基于字序列标注的中文分词模型之外,Cai等人[20]于2016年提出一种新型的分词模型,其模型框架如图1–2所示。他们的模型完全不同于以往的序列标注模型,大体上由打分和解码两部分组成。打分部分使用带门结构的神经网络对候选词进行打分,判断词语的合法性与流畅性,避免了固定滑动窗口大小的限制,能够更为有效地利用历史信息;解码部分负责搜索概率最大的词语序列,采用的是典型的集束搜索算法,解码效率能够得到保证。通过这种由字而词由词而句的方式,取得了很好的分词效果,是在序列标注框架之外一次成功的尝试。除了上述两种主要方法之外,基于切分动作匹配和基于转移的神经网络分词方法也得到了一定程度的研究和探索,并取得了一定的成果,但整体而言效果不及上述方法,本文便不再赘述。总而言之,基于深度学习的中文分词方法是近年来中文分词研究领域的主流方法,取得了许多成功的经验和结果。但是,相比于传统的分词方法而言,基于深度学习的分词方法在分词精度方面优势并不绝对,同时训练和预测效率较低,尚存在许多优化和提升的空间。—5—
上海交通大学硕士学位论文第二章中文分词与词性标注一体化模型图2–1中文分词与词性标注一体化模型整体框架Figure2–1JointModelArchitecture输入层之后是隐藏层,此处隐藏层指的是广义上的中间层,而非一般前馈神经网络中的隐藏层。具体而言,隐藏层使用循环神经网络对整个句子的上下文信息进行建模。为了既能利用过去的信息(上文)又能利用将来的信息(下文),本文采用双向循环神经网络;同时为了避免梯度消失与梯度爆炸所带来的训练问题,本文采用基于长短期基于单元的循环神经网络。此外,为了充分利用原始语料中所包含的语法和语义信息,本文创新性引入神经网络语言模型作为辅助任务与主任务进行联合训练;同时为了调和语言模型与序列标注问题之间的差异性,引入HighwayNetwork[41]进行进一步的非线性变换。关于语言模型联合训练的问题将在本章第四节进行叙述。隐藏层之后是输出层,输出层为句子中每一个字预测一个标签。为了对标签之间的依赖关系进行显式的建模,本文在输出层使用了经典的条件随机场,并使用维特比算法进行输出标签的预测,其具体细节见本章第五节。2.2标签策略表2–1早期中文分词标签集示例Table2–1ExamplesofChineseWordSegmentationTagset四元标签集三元标签集二元标签集标签说明标签说明标签说明B(LL)开头B开头开头StartM(MM)中间I中间或结尾E(RR)结尾非开头NoStartS(LR)单字词O单字词概括而言,中文分词与词性标注所需要的标注标签是中文分词标签与词性标注标签的笛卡尔积。—10—
【参考文献】:
期刊论文
[1]论汉语字词的语用频率及其分布规律[J]. 龚嘉镇. 中国文字研究. 2017(02)
[2]基于CNN和LSTM混合模型的中文词性标注[J]. 谢逸,饶文碧,段鹏飞,陈振东. 武汉大学学报(理学版). 2017(03)
[3]基于SVMTool的中文词性标注[J]. 王丽杰,车万翔,刘挺. 中文信息学报. 2009(04)
[4]一种基于规则优先级的词性标注方法[J]. 王广正,王喜凤. 安徽工业大学学报(自然科学版). 2008(04)
[5]一种用于词性标注的相关投票融合策略[J]. 郭永辉,吴保民,王炳锡. 中文信息学报. 2007(02)
[6]基于条件随机场(CRFs)的中文词性标注方法[J]. 洪铭材,张阔,唐杰,李涓子. 计算机科学. 2006(10)
[7]基于完全二阶隐马尔可夫模型的汉语词性标注[J]. 梁以敏,黄德根. 计算机工程. 2005(10)
[8]北京大学现代汉语语料库基本加工规范[J]. 俞士汶,段慧明,朱学锋,孙斌. 中文信息学报. 2002(05)
[9]现代汉语语法信息词典规格说明书[J]. 俞士汶,朱学锋,王惠,张芸芸. 中文信息学报. 1996(02)
[10]齐夫定律的理论基础及其实践意义[J]. 张忠友. 情报科学. 1989(05)
本文编号:3128248
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3128248.html
最近更新
教材专著