基于深度学习的文本校对方法研究
发布时间:2021-12-25 04:11
随着互联网的飞速发展,网络上的文本数据量激增,同时也导致了文本质量下降,传统的人工校对早已无法完成如此巨量的工作,文本自动校对技术应运而生。该技术不仅能加快出版节奏,而且可以利用该技术在企业单位减少大量需要保存的电子文档中的错误,同时在在教育教学方面也能辅助教师评阅试卷,发现其中的拼写错误。传统基于统计和规则的文本校对方法存在诸多问题。一方面规则的制定需要丰富的经验,人力成本高,且这种基于流水线的模式,会由于分词产生的噪音,很容易导致错误累积。另一方面,现有方法仅使用了字或词的特征信息,对于字、词、拼音三种特征信息未进行有效的利用。针对以上问题,本文提出一种基于深度学习的序列标注模型BLSTM-CRF,无需进行人工干预,节省了人力成本,并采用字粒度的特征免去了分词引入的噪音。此外,针对多特征未有效利用问题,对BLSTM-CRF模型进行了改进,采用了网格LSTM和门控机制有效地对字、词、拼音三者进行了多特征融合。本文研究的主要内容主要分为两个方面:(1)本文提出了一种用于中文拼写检查的神经网络架构BLSTM-CRF,即双向长短时记忆网络结合条件随机场模型。它是真正的端到端模型,不依赖于特...
【文章来源】:北方工业大学北京市
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
词嵌入表示示例
第二章相关技术概述15语。但由于词汇表大小V通常是比较大的,每次都更新W矩阵计算量很大,同时不同的词出现的频率也不一样,所以论文中采用了多层Softmax和负采样两种优化方法来解决这一问题。2.3.3长短时记忆网络长短时记忆网络(LongShort-TermMemory,LSTM)[20]是一种特殊的循环神经网络(RecurrentNeuralNetwork,RNN)。循环神经网络(RNN)其特点是能够编码历史信息进来,作为当前时刻决策的参考,在某种程度上具有了记忆信息的功能。RNN本质上就是循环调用一个计算模块,每个时刻的输入既包括新信息的输入,也包括上一个时刻计算得到的结果,与此同时,每个时刻的输出一部分作为当前输入预测的结果,一部分拷贝流向下一步的计算。xhXt-1ht-1ht-1htxththt+1xt+1图2-5RNN网络如图2-5所示,对于时刻t来说,循环神经网络的输入不仅包括当前的输入向量tx,还包括上一次计算留下来的隐藏层向量t1h。但是循环神经网络存在一个缺陷,就是梯度消失/爆炸问题[20],导致模型无法学习到长距离的依赖关系。长短时记忆网络(LSTM)通过使用记忆单元(Memorycell)就很好的解决了上述问题。一个典型的LSTM网络如图2-6所示。图2-6LSTM网络结构
拼写错误示例
【参考文献】:
期刊论文
[1]中文文本语义错误侦测方法研究[J]. 张仰森,郑佳. 计算机学报. 2017(04)
[2]面向政治新闻领域的中文文本校对方法研究[J]. 张仰森,唐安杰,张泽伟. 中文信息学报. 2014(06)
[3]基于知识库的多层级中文文本查错推理模型[J]. 吴林,张仰森. 计算机工程. 2012(20)
[4]基于《知网》义原搭配的中文文本语义级自动查错研究[J]. 郭充,张仰森. 计算机工程与设计. 2010(17)
[5]基于规则与统计相结合的中文文本自动查错模型与算法[J]. 张仰森,曹元大,俞士汶. 中文信息学报. 2006(04)
[6]中文文本自动校对技术的研究[J]. 骆卫华,罗振声,宫小瑾. 计算机研究与发展. 2004(01)
[7]中文文本校对技术的研究与实现[J]. 陈笑蓉,秦进,汪维家,陆汝占. 计算机科学. 2003(11)
[8]一种基于窗口技术的中文文本自动校对方法[J]. 汪维家,陈笑蓉,秦进,陆汝占. 贵州大学学报(自然科学版). 2003(02)
[9]中文文本自动校对的语义级查错研究[J]. 骆卫华,罗振声,龚小谨. 计算机工程与应用. 2003(12)
[10]基于二元接续关系检查的字词级自动查错方法[J]. 张仰森,丁冰青. 中文信息学报. 2001(03)
博士论文
[1]自然语言处理中序列标注模型的研究[D]. 计峰.复旦大学 2012
硕士论文
[1]中文文本校对关键技术研究与应用[D]. 吴淙.电子科技大学 2019
[2]字词级中文文本自动校对的方法研究[D]. 卓利艳.郑州大学 2018
[3]中文真词错误自动校对方法研究[D]. 顾德之.江苏科技大学 2017
[4]基于OCR的中文文本校对研究[D]. 郇政永.北方工业大学 2011
本文编号:3551763
【文章来源】:北方工业大学北京市
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
词嵌入表示示例
第二章相关技术概述15语。但由于词汇表大小V通常是比较大的,每次都更新W矩阵计算量很大,同时不同的词出现的频率也不一样,所以论文中采用了多层Softmax和负采样两种优化方法来解决这一问题。2.3.3长短时记忆网络长短时记忆网络(LongShort-TermMemory,LSTM)[20]是一种特殊的循环神经网络(RecurrentNeuralNetwork,RNN)。循环神经网络(RNN)其特点是能够编码历史信息进来,作为当前时刻决策的参考,在某种程度上具有了记忆信息的功能。RNN本质上就是循环调用一个计算模块,每个时刻的输入既包括新信息的输入,也包括上一个时刻计算得到的结果,与此同时,每个时刻的输出一部分作为当前输入预测的结果,一部分拷贝流向下一步的计算。xhXt-1ht-1ht-1htxththt+1xt+1图2-5RNN网络如图2-5所示,对于时刻t来说,循环神经网络的输入不仅包括当前的输入向量tx,还包括上一次计算留下来的隐藏层向量t1h。但是循环神经网络存在一个缺陷,就是梯度消失/爆炸问题[20],导致模型无法学习到长距离的依赖关系。长短时记忆网络(LSTM)通过使用记忆单元(Memorycell)就很好的解决了上述问题。一个典型的LSTM网络如图2-6所示。图2-6LSTM网络结构
拼写错误示例
【参考文献】:
期刊论文
[1]中文文本语义错误侦测方法研究[J]. 张仰森,郑佳. 计算机学报. 2017(04)
[2]面向政治新闻领域的中文文本校对方法研究[J]. 张仰森,唐安杰,张泽伟. 中文信息学报. 2014(06)
[3]基于知识库的多层级中文文本查错推理模型[J]. 吴林,张仰森. 计算机工程. 2012(20)
[4]基于《知网》义原搭配的中文文本语义级自动查错研究[J]. 郭充,张仰森. 计算机工程与设计. 2010(17)
[5]基于规则与统计相结合的中文文本自动查错模型与算法[J]. 张仰森,曹元大,俞士汶. 中文信息学报. 2006(04)
[6]中文文本自动校对技术的研究[J]. 骆卫华,罗振声,宫小瑾. 计算机研究与发展. 2004(01)
[7]中文文本校对技术的研究与实现[J]. 陈笑蓉,秦进,汪维家,陆汝占. 计算机科学. 2003(11)
[8]一种基于窗口技术的中文文本自动校对方法[J]. 汪维家,陈笑蓉,秦进,陆汝占. 贵州大学学报(自然科学版). 2003(02)
[9]中文文本自动校对的语义级查错研究[J]. 骆卫华,罗振声,龚小谨. 计算机工程与应用. 2003(12)
[10]基于二元接续关系检查的字词级自动查错方法[J]. 张仰森,丁冰青. 中文信息学报. 2001(03)
博士论文
[1]自然语言处理中序列标注模型的研究[D]. 计峰.复旦大学 2012
硕士论文
[1]中文文本校对关键技术研究与应用[D]. 吴淙.电子科技大学 2019
[2]字词级中文文本自动校对的方法研究[D]. 卓利艳.郑州大学 2018
[3]中文真词错误自动校对方法研究[D]. 顾德之.江苏科技大学 2017
[4]基于OCR的中文文本校对研究[D]. 郇政永.北方工业大学 2011
本文编号:3551763
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3551763.html
最近更新
教材专著