当前位置:主页 > 科技论文 > 软件论文 >

基于深度学习的自动句法纠错研究

发布时间:2021-07-28 05:48
  自动语法改错(GEC),是自然语言处理中句法分析中较为困难的任务之一。在日常对话中,语法上的细微差别对于一个非母语的人来说是最困难掌握与理解的,当前自然语言中的语法改错不仅包含语法错误,也包含拼写与搭配错误。近年来,随着深度学习的发展,自动语法改错任务得到了不少关注。基于统计机器翻译(SMT)的短语相关方法,是将GEC看做一个翻译任务:从“坏”转换到“好”,所用的语料也是类似翻译语料的平行语料。不同于SMT依赖于递归神经网络(RNN),也有通过卷积神经网络(CNN)来进行句子编码,提取以短语为基础的语义空间表征。这些方法都是通过建立端到端(encoder-decoder)的序列到序列(seq2seq)模型,理解错误句子与正确句子之间的语义以及词语表述的差异来定位语法错误。为了进一步充分学习数据中的知识,通过监督学习(supervised learning)方式是最常见的。该方法需要大量标注数据,但是标注成本巨大。学者们发现可以利用非标注(unlabeled)数据进行非监督学习,通过挖掘其中有价值语义信息帮助其他的监督任务理解。其中有利用基于翻译语料的预训练模型,也有利用长文本语料进行语... 

【文章来源】:北京大学北京市 211工程院校 985工程院校 教育部直属院校

【文章页数】:79 页

【学位级别】:硕士

【部分图文】:

基于深度学习的自动句法纠错研究


CBoW模型,连续词袋模型预测中心词

上下文,模型,维度,多重


4图 2.2 Skip-gram 模型,利用词本身去预测词的上下文 Word2Vec 基础上,GloVe[7]也是一种常用的词向量表示方法,结合了统文训练时,利用了主题模型的补充信息。高频词正则化使得目标会更关重点词。多学者发现,词向量不仅可以表现为每个词的语义,还能扩展到多重维体词向量包含多重维度的信息。可以包含语义(Semantic Representatio(Syntactic role)、句法成分(Chunking)、命名实体(Named Entity Recog义角色(Semantic Role)。每种类型在不同维度上训练,并把该维度信

词语,句子,上下文,特征表示


图 2.3 Variations on Word 词的不同特征表示本句特征向量模型应用十分广泛,但是其仍然存在一些缺陷。一是词语其实料的词义,而没法更多的考虑整句话以及词语所处的上下文环境,“苹果”这种水果还是指“苹果公司”。所以,一个词的词向量不行学习,而应该考虑实际具体所处的位置,才能得到最准确以及有征。一步考虑句子中词语与词语之间的联系,以及当前词语所属的语语在句子级别的特征表示,当前词每次都会针对所属上下文投影到解析。最初始的属于 Doc2vec[9],该特征表示为了把上下文进行考入了一个段落特征(paragraph vector)。段落向量具有对全局信息的概量可以构建语言模型,预测下一个词。这种把句子融入的过程可以义信息,同时将句子整体语言表征为一个固定向量,模型在考虑词对整体句子语义进行考量。不过该方法有天然的缺陷,在于句子级


本文编号:3307348

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3307348.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e8a9f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com