海量学术资源的自动分类应用研究
发布时间:2021-06-14 06:22
随着互联网的兴起和信息技术的高速发展,每年都有数以亿计的学术资源诞生。这些数据在向人们传递海量信息的同时,也给用户查找以及使用这些资源造成了困扰——信息过载。伴随而来的,人们获取信息的方式发生了变化,由单纯的“人找信息”转变为“搜索+推荐”的双引擎模式。标记数据的价值逐渐凸显,对数据标注的质量要求也越来越高。文本是学术资源的主要呈现方式,作为分布最广、数据量最大的信息载体,如何对这些数据进行科学、有效地组织和管理是亟待解决的难题。学科分类作为区分不同内容学术资源的重要标签,给海量学术资源的组织、归档、检索与推荐带来了极大的帮助。因此,自动化文本分类技术的研究显得尤为重要,引起了学术界和工业界的广泛关注。学术资源分类是依据学术数据的基本内容,发掘一些与类别紧密关联的特征和信息,将资源映射到具体类别的过程。传统的机器学习方法高度依赖人为选择的特征,泛化以及领域迁移能力较差。采用深度学习方法将特征工程融合于模型的构建过程中,从而减少人为设计特征的不完备性和冗余是当前的研究热点。本文面向海量学术数据,根据跨类型学术资源的基本特点,分别设计了对应的分类模型,包括基于双向GRU网络与注意力机制的文...
【文章来源】:宁波大学浙江省
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
引言
1 绪论
1.1 文本分类研究背景
1.2 课题研究背景与意义
1.3 当前面临的问题
1.4 论文的主要工作
1.5 论文的组织结构
2 文本分类综述
2.1 文本分类的发展历程
2.2 文本分类概述
2.3 文本分类的关键技术
2.3.1 文本预处理
2.3.2 词向量与文本表示
2.3.3 特征选择
2.3.4 特征抽取
2.4 分类算法
2.5 深度学习与文本分类
2.5.1 卷积神经网络
2.5.2 循环神经网络
2.5.3 注意力机制
2.6 评价指标
2.7 本章小结
3 基于BiGRU网络与Attention机制的学术资源分类模型
3.1 GRU与 BiGRU
3.2 卷积层
3.3 注意力机制
3.4 Softmax层
3.5 基于注意力池化方法的专利标题分类
3.6 实验
3.6.1 实验环境和数据集
3.6.2 实验设计
3.6.3 实验结果与分析
3.7 本章小结
4 基于关键词特征和卷积神经网络的学术资源分类模型
4.1 引入类别信息的CI-TFDF算法
4.2 基于CI-TFDF算法的文本分类
4.3 改进的卷积神经网络
4.3.1 输入层的特征拼接结构
4.3.2 最大-均值池化层
4.3.3 全连接层Maxout+Dropout
4.3.4 Softmax层
4.4 混合模型(Hybrid Model)
4.4.1 混合模型与文本分类
4.4.2 混合模型与关键词抽取
4.4.3 词性特征
4.5 实验
4.5.1 实验数据集
4.5.2 实验设计及评估指标
4.5.3 实验结果与分析
4.6 本章小结
5 结论
5.1 工作总结
5.2 研究展望
参考文献
在学研究成果
致谢
Abstract of Thesis
论文摘要
【参考文献】:
期刊论文
[1]结合改进的CHI统计方法的TF-IDF算法优化[J]. 马莹,赵辉,李万龙,庞海龙,崔岩. 计算机应用研究. 2019(09)
[2]基于多通道卷积神经网络的中文微博情感分析[J]. 陈珂,梁斌,柯文德,许波,曾国超. 计算机研究与发展. 2018(05)
[3]基于LDA扩展主题词库的主题爬虫研究[J]. 费晨杰,刘柏嵩. 计算机应用与软件. 2018(04)
[4]深度神经网络训练中梯度不稳定现象研究综述[J]. 陈建廷,向阳. 软件学报. 2018(07)
[5]基于主题增强卷积神经网络的用户兴趣识别[J]. 杜雨萌,张伟男,刘挺. 计算机研究与发展. 2018(01)
[6]结合注意力机制的长文本分类方法[J]. 卢玲,杨武,王远伦,雷子鉴,李莹. 计算机应用. 2018(05)
[7]面向大规模图像分类的深度卷积神经网络优化[J]. 白琮,黄玲,陈佳楠,潘翔,陈胜勇. 软件学报. 2018(04)
[8]基于多注意力卷积神经网络的特定目标情感分析[J]. 梁斌,刘全,徐进,周倩,章鹏. 计算机研究与发展. 2017(08)
[9]跨类型的学术资源优质推荐算法研究[J]. 尹丽玲,刘柏嵩,王洋洋. 情报学报. 2017(07)
[10]基于CP-CNN的中文短文本分类研究[J]. 余本功,张连彬. 计算机应用研究. 2018(04)
本文编号:3229248
【文章来源】:宁波大学浙江省
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
引言
1 绪论
1.1 文本分类研究背景
1.2 课题研究背景与意义
1.3 当前面临的问题
1.4 论文的主要工作
1.5 论文的组织结构
2 文本分类综述
2.1 文本分类的发展历程
2.2 文本分类概述
2.3 文本分类的关键技术
2.3.1 文本预处理
2.3.2 词向量与文本表示
2.3.3 特征选择
2.3.4 特征抽取
2.4 分类算法
2.5 深度学习与文本分类
2.5.1 卷积神经网络
2.5.2 循环神经网络
2.5.3 注意力机制
2.6 评价指标
2.7 本章小结
3 基于BiGRU网络与Attention机制的学术资源分类模型
3.1 GRU与 BiGRU
3.2 卷积层
3.3 注意力机制
3.4 Softmax层
3.5 基于注意力池化方法的专利标题分类
3.6 实验
3.6.1 实验环境和数据集
3.6.2 实验设计
3.6.3 实验结果与分析
3.7 本章小结
4 基于关键词特征和卷积神经网络的学术资源分类模型
4.1 引入类别信息的CI-TFDF算法
4.2 基于CI-TFDF算法的文本分类
4.3 改进的卷积神经网络
4.3.1 输入层的特征拼接结构
4.3.2 最大-均值池化层
4.3.3 全连接层Maxout+Dropout
4.3.4 Softmax层
4.4 混合模型(Hybrid Model)
4.4.1 混合模型与文本分类
4.4.2 混合模型与关键词抽取
4.4.3 词性特征
4.5 实验
4.5.1 实验数据集
4.5.2 实验设计及评估指标
4.5.3 实验结果与分析
4.6 本章小结
5 结论
5.1 工作总结
5.2 研究展望
参考文献
在学研究成果
致谢
Abstract of Thesis
论文摘要
【参考文献】:
期刊论文
[1]结合改进的CHI统计方法的TF-IDF算法优化[J]. 马莹,赵辉,李万龙,庞海龙,崔岩. 计算机应用研究. 2019(09)
[2]基于多通道卷积神经网络的中文微博情感分析[J]. 陈珂,梁斌,柯文德,许波,曾国超. 计算机研究与发展. 2018(05)
[3]基于LDA扩展主题词库的主题爬虫研究[J]. 费晨杰,刘柏嵩. 计算机应用与软件. 2018(04)
[4]深度神经网络训练中梯度不稳定现象研究综述[J]. 陈建廷,向阳. 软件学报. 2018(07)
[5]基于主题增强卷积神经网络的用户兴趣识别[J]. 杜雨萌,张伟男,刘挺. 计算机研究与发展. 2018(01)
[6]结合注意力机制的长文本分类方法[J]. 卢玲,杨武,王远伦,雷子鉴,李莹. 计算机应用. 2018(05)
[7]面向大规模图像分类的深度卷积神经网络优化[J]. 白琮,黄玲,陈佳楠,潘翔,陈胜勇. 软件学报. 2018(04)
[8]基于多注意力卷积神经网络的特定目标情感分析[J]. 梁斌,刘全,徐进,周倩,章鹏. 计算机研究与发展. 2017(08)
[9]跨类型的学术资源优质推荐算法研究[J]. 尹丽玲,刘柏嵩,王洋洋. 情报学报. 2017(07)
[10]基于CP-CNN的中文短文本分类研究[J]. 余本功,张连彬. 计算机应用研究. 2018(04)
本文编号:3229248
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3229248.html