基于深度学习和注意力机制的文本分类方法研究
发布时间:2021-11-04 23:18
随着计算机信息技术、移动互联网的快速发展,每天都会产生大量的文本数据。面对海量数据,高效获取有价值的信息变得尤为必要。为满足人们对信息的个性化需求,需使用相应的处理技术对海量文本数据进行加工与处理,而文本分类技术正是这些技术的基石。文本分类是自然语言处理领域的经典主题。传统文本分类方法通常采用浅层机器学习算法,通过人工设计特征选择方法对特征进行提取,此类方法人工成本高、耗时长、训练难,对海量数据的处理加工场景适应性差。基于深度学习的文本分类方法,能从海量文本数据中自动进行特征学习与特征提取,大幅降低人工成本且易于训练,算法领域迁移性得到增强。词向量作为一种特殊的文本表示形式,能够对语义相近的词进行表示,避免传统方法存在的语义鸿沟。在文本分类任务中使用自注意力机制,能够充分学习文本特征,发现重要特征忽略次要特征捕获文本中关键的信息。基于上述特点,本文结合深度学习与自注意力机制,针对不同类型的文本分类任务进行研究,主要研究工作如下:(1)使用词嵌入机制解决传统文本分类模型中数据表示的高维度、语义鸿沟问题。词嵌入将文本数据映射到低维的实数向量中,避免高维度输入导致的维数灾难,使用词嵌入机制训...
【文章来源】:江西师范大学江西省
【文章页数】:73 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.2 国内外研究及发展现状
1.2.1 文本分类研究现状
1.2.2 深度学习研究现状
1.2.3 注意力机制研究现状
1.3 主要工作
1.4 论文结构
2 相关基础理论介绍
2.1 文本表示
2.1.1 分布式表示
2.1.2 Word2vec
2.2 深度神经网络模型
2.2.1 卷积神经网络
2.2.2 GRU网络
2.3 注意力机制
2.4 评价指标
2.5 本章小节
3 基于自注意力机制的单标签文本分类方法
3.1 问题描述
3.2 DSA-CNN模型
3.2.1 架构
3.2.2 算法流程描述
3.3 实验与结果分析
3.3.1 实验设置
3.3.2 结果分析
3.4 本章小节
4 基于自注意力机制的多标签文本分类方法
4.1 问题描述
4.2 SA-GRU模型
4.2.1 架构
4.2.2 算法流程描述
4.3 实验与结果分析
4.3.1 实验设置
4.3.2 结果分析
4.4 本章小节
5 总结与展望
5.1 本文总结
5.2 展望
参考文献
致谢
在读期间公开发表论文(著)及科研情况
【参考文献】:
期刊论文
[1]池化和注意力相结合的新闻文本分类方法[J]. 陶永才,杨朝阳,石磊,卫琳. 小型微型计算机系统. 2019(11)
[2]图卷积神经网络综述[J]. 徐冰冰,岑科廷,黄俊杰,沈华伟,程学旗. 计算机学报. 2020(05)
[3]基于独热编码和卷积神经网络的异常检测[J]. 梁杰,陈嘉豪,张雪芹,周悦,林家骏. 清华大学学报(自然科学版). 2019(07)
[4]基于混合卡方统计量与逻辑回归的文本情感分析[J]. 李平,戴月明,王艳. 计算机工程. 2017(12)
[5]一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 黄承慧,印鉴,侯昉. 计算机学报. 2011(05)
[6]基于SVM决策树的文本分类器[J]. 朱远平,戴汝为. 模式识别与人工智能. 2005(04)
硕士论文
[1]基于布尔模型的网页查重算法研究[D]. 连浩.中国科学院研究生院(计算技术研究所) 2006
本文编号:3476599
【文章来源】:江西师范大学江西省
【文章页数】:73 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.2 国内外研究及发展现状
1.2.1 文本分类研究现状
1.2.2 深度学习研究现状
1.2.3 注意力机制研究现状
1.3 主要工作
1.4 论文结构
2 相关基础理论介绍
2.1 文本表示
2.1.1 分布式表示
2.1.2 Word2vec
2.2 深度神经网络模型
2.2.1 卷积神经网络
2.2.2 GRU网络
2.3 注意力机制
2.4 评价指标
2.5 本章小节
3 基于自注意力机制的单标签文本分类方法
3.1 问题描述
3.2 DSA-CNN模型
3.2.1 架构
3.2.2 算法流程描述
3.3 实验与结果分析
3.3.1 实验设置
3.3.2 结果分析
3.4 本章小节
4 基于自注意力机制的多标签文本分类方法
4.1 问题描述
4.2 SA-GRU模型
4.2.1 架构
4.2.2 算法流程描述
4.3 实验与结果分析
4.3.1 实验设置
4.3.2 结果分析
4.4 本章小节
5 总结与展望
5.1 本文总结
5.2 展望
参考文献
致谢
在读期间公开发表论文(著)及科研情况
【参考文献】:
期刊论文
[1]池化和注意力相结合的新闻文本分类方法[J]. 陶永才,杨朝阳,石磊,卫琳. 小型微型计算机系统. 2019(11)
[2]图卷积神经网络综述[J]. 徐冰冰,岑科廷,黄俊杰,沈华伟,程学旗. 计算机学报. 2020(05)
[3]基于独热编码和卷积神经网络的异常检测[J]. 梁杰,陈嘉豪,张雪芹,周悦,林家骏. 清华大学学报(自然科学版). 2019(07)
[4]基于混合卡方统计量与逻辑回归的文本情感分析[J]. 李平,戴月明,王艳. 计算机工程. 2017(12)
[5]一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 黄承慧,印鉴,侯昉. 计算机学报. 2011(05)
[6]基于SVM决策树的文本分类器[J]. 朱远平,戴汝为. 模式识别与人工智能. 2005(04)
硕士论文
[1]基于布尔模型的网页查重算法研究[D]. 连浩.中国科学院研究生院(计算技术研究所) 2006
本文编号:3476599
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3476599.html