深度学习在文章编辑中智能语义检查算法的研究
发布时间:2024-03-14 04:02
科技的发展使如今各行各业的数据量不断变大,印刷行业也随之改变。本文针对印刷工艺的文字类原稿编辑工作中的语句校正问题进行研究。本文设计并实现了基于长短时记忆神经网络的语义检查算法。此算法首先采集、整理并构建了标准的语料数据集;其次利用词嵌入算法将经过处理的语料数据映射到词向量空间;最后根据词嵌入算法得到的结果训练用来识别语句段并对语句中的词预测、检查的语言模型。具体内容如下:(1)设计了一种新的词嵌入方法,利用这种方法构建了新的词向量模型。该词嵌入方法首先根据收集的相关文本语料、汉语言语法关系以及现有词嵌入算法顺序性和全局共线性较差的缺点设计的。其次是通过统计词-词组的频数建立一种以词组为词的特征列的矩阵,并通过聚类算法将矩阵降维,将词映射到一个低维的词向量空间中,构建了一种新的词向量模型。最后用现有词嵌入算法构建另一种词向量模型。将这两种词向量模型进行对比分析,虽然根据相关文本统计词-词组的频数做特征矩阵聚类后生成的词向量模型在全局共线性略优于现有词嵌入算法,但是聚类使基于词-词组的词嵌入方法整体效果略逊于现有词嵌入算法构建的词向量模型。(2)采用两种词向量模型分别构建基于LSTM的语...
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
本文编号:3928034
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图2-6jieba分词功能示意图
图2-6jieba分词功能示意图Figure2-6Schematicdiagramofjiebawordsegmentation(1)分词jieba.cut方法里有由三个参数,分别为:需要分词的字符串、是否采用全模式和HMM模型。适合用于搜索的分词的j....
图2-7jieba分词效果图
图2-6jieba分词功能示意图Figure2-6Schematicdiagramofjiebawordsegmentation分词cut方法里有由三个参数,分别为:需要分词的字符串、是否采用全模型。适合用于搜索的分词的jieba.cut_for_sea....
图3-1one-hot编码示意图
够使人们的目光汇聚到此处的原因是由于人工化的产品的这种期望导致人们要求计算机处理够直接理解人类的自然语言,那么对自然语行计算就是第一步。实际上词向量就是自然语t形式的词嵌入方法。言处理的工作的第一步都是要将语料中的词转编号。one-hot方法很简单,可以理解这种方,这样的目的....
图3-4特征矩阵示意图
图3-4特征矩阵示意图Figure3-4Schematicdiagramofthefeaturematrix看出,实际上统计的词-词组特征矩阵除数据特征而存储,其中频次则为影响该词的词向量百科中文语料库分别构建的词-词组特征矩阵计算,所以还需再对特征矩阵进行降维....
本文编号:3928034
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3928034.html