基于word2vec和自注意力机制的文本分类研究
发布时间:2021-05-17 06:08
深度学习技术在自然语言处理方向的研究越来越深入,文本分类作为自然语言处理的基础任务之一,已广泛地应用于情感分析、新闻分类等领域。文本表示和特征提取是影响文本分类性能的两个重要因素,决定着文本分类效果的上限。现在的文本表示一般是基于外部大型语料库训练获得的,难以解决未登录词(Out of Vocabulary,OOV)问题,并且特征提取部分一般选择基于卷积神经网络(CNN)或循环神经网络(RNN)的模型,进行文本特征的自动提取,其模型结构在训练过程中可能会损失部分文本信息。因此,得到包含更多语义信息的文本表示,构造能充分提取文本特征的模型成为了目前了文本分类研究的难点和热点。本文针对上述两个问题,进行的研究工作如下:首先,针对word2vec模型,提出了一种改进的词向量初始化方法CPword2vec,该方法可以有效地解决训练集中未登录词的问题。防止因随机初始化向量过多而导致词向量空间被破坏,弱化了因分词错误、拼写错误等外部干扰等问题对词向量质量的影响,为后续特征提取阶段提供更丰富的语义信息。其次,本文基于Transformer模型结构提出一种层次化的神经网络模型HT...
【文章来源】:广东工业大学广东省
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究意义
1.2 国内外研究现状
1.2.1 国外发展现状
1.2.2 国内发展现状
1.3 本文的研究内容
1.4 本文组织结构
第二章 相关技术介绍
2.1 文本分类概述
2.2 文本预处理
2.2.1 文本数据清洗
2.2.2 中文分词
2.2.3 去停用词
2.3 文本表示
2.3.1 词袋模型
2.3.2 向量空间模型
2.3.3 神经网络语言模型
2.4 传统文本分类算法
2.5 评估函数
2.6 本章小结
第三章 文本分类领域的深度学习模型
3.1 卷积神经网络
3.2 循环神经网络
3.3 注意力模型
3.4 本章小结
第四章 基于word2vec的文本表示方法
4.1 问题描述
4.2 word2vec文本表示
4.3 改进的word2vec文本表示方法(CP_word2vec)
4.4 实验及其结果分析
4.4.1 数据集介绍
4.4.2 word2vec参数设置
4.4.3 min_count对分类效果的影响
4.4.4 不同模型对比试验设计
4.5 本章小结
第五章 基于CP_word2vec和自注意力神经网络文本分类模型设计
5.1 问题描述
5.2 Transformer概述
5.2.1 Self-Attention结构
5.2.2 其它层
5.2.3 Position Embedding
5.3 层次Transformer网络模型(HTN)
5.4 基于CP_word2vec和 HTN的模型介绍(CPW_HTN)
5.5 对比实验与结果分析
5.5.1 数据集介绍
5.5.2 超参数对Transformer模型的影响
5.5.3 模型及其参数设计
5.5.4 对比实验结果分析
5.6 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
攻读学位期间科研成果
致谢
【参考文献】:
期刊论文
[1]基于卷积神经网络的中文财经新闻分类方法[J]. 谢志峰,吴佳萍,马利庄. 山东大学学报(工学版). 2018(03)
[2]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏. 中文信息学报. 2017(05)
[3]空间信息的自然语言表达模型[J]. 杜清运,任福. 武汉大学学报(信息科学版). 2014(06)
[4]文本情感分析[J]. 赵妍妍,秦兵,刘挺. 软件学报. 2010(08)
[5]基于TF*IDF的垃圾邮件过滤特征选择改进算法[J]. 陈琦,伍朝辉,姚芳,宋秀荣,张付志. 计算机应用研究. 2009(06)
[6]文本分类的性能评估指标[J]. 张启蕊,董守斌,张凌. 广西师范大学学报(自然科学版). 2007(02)
[7]使用增量SVM进行文本分类[J]. 张永,周振龙,侯莉莉,张世宏. 兰州理工大学学报. 2007(01)
[8]文本分类综述[J]. 靳小波. 自动化博览. 2006(S1)
[9]基于模式聚合和决策树的文本分类规则抽取[J]. 王煜,王正欧. 情报科学. 2006(01)
[10]使用最大熵模型进行中文文本分类[J]. 李荣陆,王建会,陈晓云,陶晓鹏,胡运发. 计算机研究与发展. 2005(01)
博士论文
[1]面向小样本的文本分类模型及算法研究[D]. 刘川.电子科技大学 2017
硕士论文
[1]基于特征学习的分布式文本挖掘算法研究与应用[D]. 尹航.北京邮电大学 2015
[2]基于条件随机场的自动分词技术的研究[D]. 陈晴.东北大学 2005
本文编号:3191236
【文章来源】:广东工业大学广东省
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究意义
1.2 国内外研究现状
1.2.1 国外发展现状
1.2.2 国内发展现状
1.3 本文的研究内容
1.4 本文组织结构
第二章 相关技术介绍
2.1 文本分类概述
2.2 文本预处理
2.2.1 文本数据清洗
2.2.2 中文分词
2.2.3 去停用词
2.3 文本表示
2.3.1 词袋模型
2.3.2 向量空间模型
2.3.3 神经网络语言模型
2.4 传统文本分类算法
2.5 评估函数
2.6 本章小结
第三章 文本分类领域的深度学习模型
3.1 卷积神经网络
3.2 循环神经网络
3.3 注意力模型
3.4 本章小结
第四章 基于word2vec的文本表示方法
4.1 问题描述
4.2 word2vec文本表示
4.3 改进的word2vec文本表示方法(CP_word2vec)
4.4 实验及其结果分析
4.4.1 数据集介绍
4.4.2 word2vec参数设置
4.4.3 min_count对分类效果的影响
4.4.4 不同模型对比试验设计
4.5 本章小结
第五章 基于CP_word2vec和自注意力神经网络文本分类模型设计
5.1 问题描述
5.2 Transformer概述
5.2.1 Self-Attention结构
5.2.2 其它层
5.2.3 Position Embedding
5.3 层次Transformer网络模型(HTN)
5.4 基于CP_word2vec和 HTN的模型介绍(CPW_HTN)
5.5 对比实验与结果分析
5.5.1 数据集介绍
5.5.2 超参数对Transformer模型的影响
5.5.3 模型及其参数设计
5.5.4 对比实验结果分析
5.6 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
攻读学位期间科研成果
致谢
【参考文献】:
期刊论文
[1]基于卷积神经网络的中文财经新闻分类方法[J]. 谢志峰,吴佳萍,马利庄. 山东大学学报(工学版). 2018(03)
[2]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏. 中文信息学报. 2017(05)
[3]空间信息的自然语言表达模型[J]. 杜清运,任福. 武汉大学学报(信息科学版). 2014(06)
[4]文本情感分析[J]. 赵妍妍,秦兵,刘挺. 软件学报. 2010(08)
[5]基于TF*IDF的垃圾邮件过滤特征选择改进算法[J]. 陈琦,伍朝辉,姚芳,宋秀荣,张付志. 计算机应用研究. 2009(06)
[6]文本分类的性能评估指标[J]. 张启蕊,董守斌,张凌. 广西师范大学学报(自然科学版). 2007(02)
[7]使用增量SVM进行文本分类[J]. 张永,周振龙,侯莉莉,张世宏. 兰州理工大学学报. 2007(01)
[8]文本分类综述[J]. 靳小波. 自动化博览. 2006(S1)
[9]基于模式聚合和决策树的文本分类规则抽取[J]. 王煜,王正欧. 情报科学. 2006(01)
[10]使用最大熵模型进行中文文本分类[J]. 李荣陆,王建会,陈晓云,陶晓鹏,胡运发. 计算机研究与发展. 2005(01)
博士论文
[1]面向小样本的文本分类模型及算法研究[D]. 刘川.电子科技大学 2017
硕士论文
[1]基于特征学习的分布式文本挖掘算法研究与应用[D]. 尹航.北京邮电大学 2015
[2]基于条件随机场的自动分词技术的研究[D]. 陈晴.东北大学 2005
本文编号:3191236
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3191236.html
最近更新
教材专著