融合深度学习特征与浅层机器学习特征的中文分词关键技术研究
发布时间:2022-02-18 23:26
近些年来,随着互联网时代的到来,我国互联网技术不断发展。在日常生活中,企业和用户都希望能够从计算机数据中获得快速精确的文本数据。对于很多自然语言处理任务来说,分词往往是任务实施的第一步,分词效果的好坏可能会直接影响相关任务的准确性。中文分词中也存在着一些问题制约着分词准确率的提升,如未登录词和歧义词的出现。通过研究,学者们提出了一系列试图解决这些问题的方法,这些方法主要有三种:基于概率统计模型的分词方法,基于词典匹配技术的分词方法和基于字标注的技术的分词方法。随着大量机器学习的方法被运用到自然语言处理领域,学者们提出了基于隐马尔可夫和基于条件随机场的分词模型。当标记数据量增大时,基于机器学习的中文分词方法相对于传统的方法会有大幅的提升。目前深度学习在图像处理领域被广泛运用,也取得了可喜的成绩,同时在自然语言领域也有不错的效果。本文将机器学习和深度学习的方法运用到中文分词领域,对传统的基于机器学习中文分词方法进行改进,提升分词效果。本文将标记语料按字向量化后,注入LSTM将语言中上下文关系添加到向量中,为接下来的条件随机场分词提供了充足的上下文信息,从而提升分词的准确率。LSTM相比于卷...
【文章来源】:华中师范大学湖北省211工程院校教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.1.1 中文分词的研究现状
1.1.2 中文分词的技术发展
1.1.3 中文分词与机器学习
1.1.4 中文分词与深度学习
1.2 论文主要工作和贡献
1.3 论文组织
第二章 深度学习与浅层机器学习理论基础
2.1 机器学习理论基础
2.1.1 隐马尔可夫模型
2.1.2 条件随机场模型
2.2 深度学习理论基础
2.2.1 神经网络模型
2.2.2 神经网络参数的训练方式
2.3 RNN和LSTM神经网络
2.4 本章小结
第三章 CRF与词向量的分词方法的优化
3.1 引出问题
3.2 基于条件随机场与word2vec的中文分词方法结合的优化
3.2.1 条件随机场的中文分词方法
3.2.2 word2vec的中文分词方法
3.2.3 条件随机场与word2vec结合的中文分词方法
3.2.4 模型整体框架
3.3 实验分析
3.3.1 实验数据集
3.3.2 实验环境
3.3.3 实验评价标准
3.3.4 实验的步骤
3.4 本章小结
第四章 双向LSTM模型中文分词模型的优化
4.1 问题概述
4.2 基于深度学习的中文分词方法
4.2.1 基于BP的中文分词方法
4.2.2 基于RNN的中文分词方法
4.2.3 基于LSTM的中文分词方法
4.2.4 双向LSTM模型的中文分词方法的优化
4.3 实验分析
4.3.1 实验数据集
4.3.2 实验环境
4.3.3 实验评价标准
4.3.4 实验的步骤
4.3.5 实验结果
4.4 本章小结
第五章 总结与展望
5.1 全文总结
5.2 工作展望
参考文献
攻读硕士期间发表的论文和科研项目
致谢
【参考文献】:
期刊论文
[1]基于高斯词长特征的中文分词方法[J]. 张义,李治江. 中文信息学报. 2016(05)
[2]基于LSTM网络的序列标注中文分词法[J]. 任智慧,徐浩煜,封松林,周晗,施俊. 计算机应用研究. 2017(05)
[3]中文分词算法研究与分析[J]. 江华丽. 物联网技术. 2016(01)
[4]基于互信息改进算法的新词发现对中文分词系统改进[J]. 杜丽萍,李晓戈,于根,刘春丽,刘睿. 北京大学学报(自然科学版). 2016(01)
[5]基于感知器的中文分词增量训练方法研究[J]. 韩冰,刘一佳,车万翔,刘挺. 中文信息学报. 2015(05)
[6]基于Active Learning的中文分词领域自适应[J]. 许华婷,张玉洁,杨晓晖,单华,徐金安,陈钰枫. 中文信息学报. 2015(05)
[7]基于表示学习的中文分词算法探索[J]. 来斯惟,徐立恒,陈玉博,刘康,赵军. 中文信息学报. 2013(05)
[8]基于序列标注的中文分词、词性标注模型比较分析[J]. 刘一佳,车万翔,刘挺,张梅山. 中文信息学报. 2013(04)
[9]基于BP神经网络的中文分词算法研究[J]. 吴建源. 佛山科学技术学院学报(自然科学版). 2012(02)
[10]统计与词典相结合的领域自适应中文分词[J]. 张梅山,邓知龙,车万翔,刘挺. 中文信息学报. 2012(02)
硕士论文
[1]基于双向LSTMN神经网络的中文分词研究分析[D]. 黄积杨.南京大学 2016
[2]中文Web文本自动分类的研究与实现[D]. 刘磊.长春理工大学 2007
[3]中文信息处理中命名实体识别问题的研究[D]. 朱江涛.沈阳航空工业学院 2006
本文编号:3631744
【文章来源】:华中师范大学湖北省211工程院校教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.1.1 中文分词的研究现状
1.1.2 中文分词的技术发展
1.1.3 中文分词与机器学习
1.1.4 中文分词与深度学习
1.2 论文主要工作和贡献
1.3 论文组织
第二章 深度学习与浅层机器学习理论基础
2.1 机器学习理论基础
2.1.1 隐马尔可夫模型
2.1.2 条件随机场模型
2.2 深度学习理论基础
2.2.1 神经网络模型
2.2.2 神经网络参数的训练方式
2.3 RNN和LSTM神经网络
2.4 本章小结
第三章 CRF与词向量的分词方法的优化
3.1 引出问题
3.2 基于条件随机场与word2vec的中文分词方法结合的优化
3.2.1 条件随机场的中文分词方法
3.2.2 word2vec的中文分词方法
3.2.3 条件随机场与word2vec结合的中文分词方法
3.2.4 模型整体框架
3.3 实验分析
3.3.1 实验数据集
3.3.2 实验环境
3.3.3 实验评价标准
3.3.4 实验的步骤
3.4 本章小结
第四章 双向LSTM模型中文分词模型的优化
4.1 问题概述
4.2 基于深度学习的中文分词方法
4.2.1 基于BP的中文分词方法
4.2.2 基于RNN的中文分词方法
4.2.3 基于LSTM的中文分词方法
4.2.4 双向LSTM模型的中文分词方法的优化
4.3 实验分析
4.3.1 实验数据集
4.3.2 实验环境
4.3.3 实验评价标准
4.3.4 实验的步骤
4.3.5 实验结果
4.4 本章小结
第五章 总结与展望
5.1 全文总结
5.2 工作展望
参考文献
攻读硕士期间发表的论文和科研项目
致谢
【参考文献】:
期刊论文
[1]基于高斯词长特征的中文分词方法[J]. 张义,李治江. 中文信息学报. 2016(05)
[2]基于LSTM网络的序列标注中文分词法[J]. 任智慧,徐浩煜,封松林,周晗,施俊. 计算机应用研究. 2017(05)
[3]中文分词算法研究与分析[J]. 江华丽. 物联网技术. 2016(01)
[4]基于互信息改进算法的新词发现对中文分词系统改进[J]. 杜丽萍,李晓戈,于根,刘春丽,刘睿. 北京大学学报(自然科学版). 2016(01)
[5]基于感知器的中文分词增量训练方法研究[J]. 韩冰,刘一佳,车万翔,刘挺. 中文信息学报. 2015(05)
[6]基于Active Learning的中文分词领域自适应[J]. 许华婷,张玉洁,杨晓晖,单华,徐金安,陈钰枫. 中文信息学报. 2015(05)
[7]基于表示学习的中文分词算法探索[J]. 来斯惟,徐立恒,陈玉博,刘康,赵军. 中文信息学报. 2013(05)
[8]基于序列标注的中文分词、词性标注模型比较分析[J]. 刘一佳,车万翔,刘挺,张梅山. 中文信息学报. 2013(04)
[9]基于BP神经网络的中文分词算法研究[J]. 吴建源. 佛山科学技术学院学报(自然科学版). 2012(02)
[10]统计与词典相结合的领域自适应中文分词[J]. 张梅山,邓知龙,车万翔,刘挺. 中文信息学报. 2012(02)
硕士论文
[1]基于双向LSTMN神经网络的中文分词研究分析[D]. 黄积杨.南京大学 2016
[2]中文Web文本自动分类的研究与实现[D]. 刘磊.长春理工大学 2007
[3]中文信息处理中命名实体识别问题的研究[D]. 朱江涛.沈阳航空工业学院 2006
本文编号:3631744
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3631744.html