中文文本的词语纠错方法研究
发布时间:2021-05-23 21:39
当今世界,中国经济蓬勃发展、国际竞争力不断提高,汉语的语言魅力吸引了越来越多的外国学习者进行学习,本文针对外国学习者学习汉语这一主题展开中文文本纠错的探究。中文文本的词语纠错方法研究是确保学习者在学习和交流时准确性的重要探究,是预估文本中错误存在与否并选取正确纠错字的关键技术手段,是中文自然语言处理研究领域中的重要课题。本文旨在辅助学习者纠正其在学习过程中产生的错误,同时也为减轻汉语教师的辅导压力。中文文本纠错研究从利于模型构建的角度出发,将纠错任务分成两大类:中文拼写纠错和中文语法纠错,分别构建模型进行纠错。在经由一系列详实的调查,概括了文本拼写问题的形成因素和类别,在N-gram语言模型基础上采用基于字的N元切分文本并统计其概率,引入混淆集和动态规划提高模型纠错效率,并使用平滑技术应对数据稀疏问题,提出了结合中文分词、二元模型和三元模型的算法,构建了基于N-gram的中文拼写纠错组合模型。针对中文语法纠错,本文将语法问题分为四大类:用词冗余、缺少词语、用词错误、词序错误。针对传统的基于统计的N元语言模型无法应对邻接词未登录以及长距离语法错误的问题,本文采用神经语言模型双向长短期记忆...
【文章来源】:江西财经大学江西省
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题背景和意义
1.2 国内外研究现状分析
1.2.1 英文纠错研究现状
1.2.2 中文纠错研究现状
1.3 本文主要工作及研究框架
1.3.1 主要工作
1.3.2 研究框架
2 相关原理阐述与技术介绍
2.1 中文文本错误分类
2.2 中文分词
2.3 语言模型
2.3.1 语言模型分类
2.3.2 数据平滑
2.4 序列标注
2.4.1 词向量化
2.4.2 CRF模型在序列标注中的应用
2.5 本章小结
3 基于N-gram的中文拼写纠错组合模型设计
3.1 问题描述
3.2 N-gram模型概述
3.3 N值的选定
3.4 基于N-gram的拼写纠错组合模型设计
3.4.1 模型建立
3.4.2 数据平滑
3.4.3 动态规划
3.4.4 定义得分函数
3.5 基于N-gram的组合模型构建
3.6 实验与分析
3.6.1 实验环境
3.6.2 实验数据集
3.6.3 评测标准
3.6.4 实验结果与分析
3.6.5 实验错误分析
3.7 本章小结
4 基于BiLSTM-CRF的中文语法纠错模型设计
4.1 问题描述
4.2 BiLSTM-CRF模型介绍
4.3 基于BiLSTM-CRF的模型设计
4.3.1 嵌入层
4.3.2 BiLSTM中间层
4.3.3 CRF层
4.3.4 BiLSTM-CRF模型构建
4.4 实验与分析
4.4.1 实验环境
4.4.2 实验数据集
4.4.3 数据预处理
4.4.4 错误类型与评估
4.4.5 实验结果与分析
4.5 本章小结
5 全文总结与研究展望
5.1 全文总结
5.2 展望
参考文献
攻读硕士学位期间的主要研究成果
致谢
【参考文献】:
期刊论文
[1]基于CRF和BI-LSTM的命名实体识别方法[J]. 柏兵,侯霞,石松. 北京信息科技大学学报(自然科学版). 2018(06)
[2]基于循环神经网络的测井曲线生成方法[J]. 张东晓,陈云天,孟晋. 石油勘探与开发. 2018(04)
[3]基于序列标注算法比较的医学文献风险事件抽取研究[J]. 喻鑫,张矩,邱武松,王飞. 计算机应用与软件. 2017(12)
[4]基于深度学习的智能中文文本检校方法[J]. 任柏青. 现代电信科技. 2017(04)
[5]基于局部上下文特征的组合的中文真词错误自动校对研究[J]. 刘亮亮,曹存根. 计算机科学. 2016(12)
[6]基于相关性及语义的n-grams特征加权算法[J]. 邱云飞,刘世兴,林明明,邵良杉. 模式识别与人工智能. 2015(11)
[7]基于N-gram的哈萨克语文本校对系统的设计与实现[J]. 玛依来·哈帕尔,古丽拉·阿东别克. 计算机应用与软件. 2012(04)
[8]人工神经网络的基本模型[J]. 沈荣. 中国科技信息. 2012(08)
[9]中文分词技术的研究现状与困难[J]. 孙铁利,刘延吉. 信息技术. 2009(07)
[10]基于N-gram统计模型的搜索引擎中文纠错[J]. 陈智鹏,吕玉琴,刘华生,刘刚,屠辉. 中国电子科学研究院学报. 2009(03)
硕士论文
[1]中文拼写检错和纠错算法的优化及实现[D]. 张松磊.华中科技大学 2019
[2]结合N-gram模型与句法分析的语法纠错[D]. 沈涛.东南大学 2017
[3]搜索引擎纠错算法研究与纠错Bad Case挖掘[D]. 孙善禄.大连理工大学 2013
[4]问答系统中文输入纠错技术研究[D]. 秦英.山东大学 2012
[5]基于统计的搜索引擎中文输入纠错技术研究[D]. 陈智鹏.北京邮电大学 2010
本文编号:3203017
【文章来源】:江西财经大学江西省
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题背景和意义
1.2 国内外研究现状分析
1.2.1 英文纠错研究现状
1.2.2 中文纠错研究现状
1.3 本文主要工作及研究框架
1.3.1 主要工作
1.3.2 研究框架
2 相关原理阐述与技术介绍
2.1 中文文本错误分类
2.2 中文分词
2.3 语言模型
2.3.1 语言模型分类
2.3.2 数据平滑
2.4 序列标注
2.4.1 词向量化
2.4.2 CRF模型在序列标注中的应用
2.5 本章小结
3 基于N-gram的中文拼写纠错组合模型设计
3.1 问题描述
3.2 N-gram模型概述
3.3 N值的选定
3.4 基于N-gram的拼写纠错组合模型设计
3.4.1 模型建立
3.4.2 数据平滑
3.4.3 动态规划
3.4.4 定义得分函数
3.5 基于N-gram的组合模型构建
3.6 实验与分析
3.6.1 实验环境
3.6.2 实验数据集
3.6.3 评测标准
3.6.4 实验结果与分析
3.6.5 实验错误分析
3.7 本章小结
4 基于BiLSTM-CRF的中文语法纠错模型设计
4.1 问题描述
4.2 BiLSTM-CRF模型介绍
4.3 基于BiLSTM-CRF的模型设计
4.3.1 嵌入层
4.3.2 BiLSTM中间层
4.3.3 CRF层
4.3.4 BiLSTM-CRF模型构建
4.4 实验与分析
4.4.1 实验环境
4.4.2 实验数据集
4.4.3 数据预处理
4.4.4 错误类型与评估
4.4.5 实验结果与分析
4.5 本章小结
5 全文总结与研究展望
5.1 全文总结
5.2 展望
参考文献
攻读硕士学位期间的主要研究成果
致谢
【参考文献】:
期刊论文
[1]基于CRF和BI-LSTM的命名实体识别方法[J]. 柏兵,侯霞,石松. 北京信息科技大学学报(自然科学版). 2018(06)
[2]基于循环神经网络的测井曲线生成方法[J]. 张东晓,陈云天,孟晋. 石油勘探与开发. 2018(04)
[3]基于序列标注算法比较的医学文献风险事件抽取研究[J]. 喻鑫,张矩,邱武松,王飞. 计算机应用与软件. 2017(12)
[4]基于深度学习的智能中文文本检校方法[J]. 任柏青. 现代电信科技. 2017(04)
[5]基于局部上下文特征的组合的中文真词错误自动校对研究[J]. 刘亮亮,曹存根. 计算机科学. 2016(12)
[6]基于相关性及语义的n-grams特征加权算法[J]. 邱云飞,刘世兴,林明明,邵良杉. 模式识别与人工智能. 2015(11)
[7]基于N-gram的哈萨克语文本校对系统的设计与实现[J]. 玛依来·哈帕尔,古丽拉·阿东别克. 计算机应用与软件. 2012(04)
[8]人工神经网络的基本模型[J]. 沈荣. 中国科技信息. 2012(08)
[9]中文分词技术的研究现状与困难[J]. 孙铁利,刘延吉. 信息技术. 2009(07)
[10]基于N-gram统计模型的搜索引擎中文纠错[J]. 陈智鹏,吕玉琴,刘华生,刘刚,屠辉. 中国电子科学研究院学报. 2009(03)
硕士论文
[1]中文拼写检错和纠错算法的优化及实现[D]. 张松磊.华中科技大学 2019
[2]结合N-gram模型与句法分析的语法纠错[D]. 沈涛.东南大学 2017
[3]搜索引擎纠错算法研究与纠错Bad Case挖掘[D]. 孙善禄.大连理工大学 2013
[4]问答系统中文输入纠错技术研究[D]. 秦英.山东大学 2012
[5]基于统计的搜索引擎中文输入纠错技术研究[D]. 陈智鹏.北京邮电大学 2010
本文编号:3203017
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3203017.html