中文文本纠错算法优化研究
发布时间:2023-03-18 15:41
随着计算机和互联网的高速发展,在工作和生活中电子文档的使用越来越频繁,传统的人工校对方式已经无法满足人们的需求。中文文本纠错就是检查中文文本是否存在错误并给予纠正,这种技术在现实生活中具有广泛的实用价值,因而成为中文自然语言处理领域中的重要课题之一,研究成果已经被广泛运用于键盘输入法,文档编辑,搜索引擎以及语音识别等领域。在对国内外纠错研究做了深入调研之后,本文分别针对字词错误和语义错误做了相关研究。在字词纠错方面,本文改进了传统的序列标注算法,提出一种基于序列标注的CSC-Bi LSTM-CRF算法,该算法将纠错任务分为查错和纠正两个部分。首先通过上下文词向量对目标词进行查错,然后根据序列标注的输出用混淆集对可疑字进行替换,最后通过概率统计选出最佳候选字。在语义纠错方面,本文提出一种基于DAE-Decoder算法,该算法将纠错任务分为编码和解码两个部分,由基于Bert的预训练,根据掩码语言模型(MLM)来给输入文本中的每个初始字符产生一组替换字符作为候选字,然后由解码器根据字符相似度和语境合适度将正确的字符从多个候选字中筛选出来。在对CSC-Bi LSTM-CRF算法和DAE-Dec...
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 国外文本纠错的研究现状
1.2.2 国内文本纠错的研究现状
1.3 本文主要研究内容及组织框架
1.3.1 本文主要研究内容
1.3.2 本文组织框架
1.4 本章小结
第2章 中文文本纠错的相关技术理论基础
2.1 词法分析
2.1.1 分词
2.1.2 词向量化
2.2 长短时记忆循环神经网络
2.3 条件随机场
2.4 去噪自编码器
2.5 BERT模型
2.5.1 BERT原理简述
2.5.2 Transformer
2.5.3 Masked Language Model
2.5.4 Next Sentence Prediction
2.5.5 BERT模型输入
2.6 本章小结
第3章 数据集和混淆集的构建
3.1 中文文本纠错的定义与分类
3.1.1 中文文本纠错的定义
3.1.2 中文文本纠错的分类
3.2 数据集介绍
3.2.1 实验数据集
3.2.2 混淆集
3.3 本章小结
第4章 针对错误类型的中文文本纠错算法
4.1 研究难点及相关算法分析
4.1.1 研究难点
4.1.2 相关算法分析
4.2 基于CSC-BiLSTM-CRF模型的中文文本字词纠错
4.2.1 BiLSTM-CRF模型
4.2.2 CSC-BiLSTM-CRF模型文本纠错
4.3 基于DAE-Decoder模型的中文文本语义纠错
4.3.1 预训练模型
4.3.2 fine-tuning文本纠错
4.3.3 基于Masked Language Model模型的编码器
4.3.4 基于语境合适度和字符的相似度的解码器
4.4 本章小结
第5章 中文文本混合纠错算法
5.1 评价标准与实验
5.1.1 实验评估指标
5.1.2 混淆集实验分析
5.1.3 算法实验分析
5.1.4 实验错误类型分析
5.2 算法优缺点分析
5.2.1 基于CSC-BiLSTM-CRF算法分析
5.2.2 基于DAE-Decoder算法分析
5.3 实验改进文本纠错混合模型的构建
5.3.1 文本纠错混合模型的构建
5.3.2 混合算法实验分析
5.4 综合实验评估
5.5 本章小结
第6章 总结与展望
6.1 工作总结
6.2 未来展望
参考文献
致谢
攻读学位期间学术成果及参加科研情况
本文编号:3763406
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 国外文本纠错的研究现状
1.2.2 国内文本纠错的研究现状
1.3 本文主要研究内容及组织框架
1.3.1 本文主要研究内容
1.3.2 本文组织框架
1.4 本章小结
第2章 中文文本纠错的相关技术理论基础
2.1 词法分析
2.1.1 分词
2.1.2 词向量化
2.2 长短时记忆循环神经网络
2.3 条件随机场
2.4 去噪自编码器
2.5 BERT模型
2.5.1 BERT原理简述
2.5.2 Transformer
2.5.3 Masked Language Model
2.5.4 Next Sentence Prediction
2.5.5 BERT模型输入
2.6 本章小结
第3章 数据集和混淆集的构建
3.1 中文文本纠错的定义与分类
3.1.1 中文文本纠错的定义
3.1.2 中文文本纠错的分类
3.2 数据集介绍
3.2.1 实验数据集
3.2.2 混淆集
3.3 本章小结
第4章 针对错误类型的中文文本纠错算法
4.1 研究难点及相关算法分析
4.1.1 研究难点
4.1.2 相关算法分析
4.2 基于CSC-BiLSTM-CRF模型的中文文本字词纠错
4.2.1 BiLSTM-CRF模型
4.2.2 CSC-BiLSTM-CRF模型文本纠错
4.3 基于DAE-Decoder模型的中文文本语义纠错
4.3.1 预训练模型
4.3.2 fine-tuning文本纠错
4.3.3 基于Masked Language Model模型的编码器
4.3.4 基于语境合适度和字符的相似度的解码器
4.4 本章小结
第5章 中文文本混合纠错算法
5.1 评价标准与实验
5.1.1 实验评估指标
5.1.2 混淆集实验分析
5.1.3 算法实验分析
5.1.4 实验错误类型分析
5.2 算法优缺点分析
5.2.1 基于CSC-BiLSTM-CRF算法分析
5.2.2 基于DAE-Decoder算法分析
5.3 实验改进文本纠错混合模型的构建
5.3.1 文本纠错混合模型的构建
5.3.2 混合算法实验分析
5.4 综合实验评估
5.5 本章小结
第6章 总结与展望
6.1 工作总结
6.2 未来展望
参考文献
致谢
攻读学位期间学术成果及参加科研情况
本文编号:3763406
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3763406.html
最近更新
教材专著