当前位置:主页 > 科技论文 > 软件论文 >

海量学术资源的自动分类应用研究

发布时间:2021-06-14 06:22
  随着互联网的兴起和信息技术的高速发展,每年都有数以亿计的学术资源诞生。这些数据在向人们传递海量信息的同时,也给用户查找以及使用这些资源造成了困扰——信息过载。伴随而来的,人们获取信息的方式发生了变化,由单纯的“人找信息”转变为“搜索+推荐”的双引擎模式。标记数据的价值逐渐凸显,对数据标注的质量要求也越来越高。文本是学术资源的主要呈现方式,作为分布最广、数据量最大的信息载体,如何对这些数据进行科学、有效地组织和管理是亟待解决的难题。学科分类作为区分不同内容学术资源的重要标签,给海量学术资源的组织、归档、检索与推荐带来了极大的帮助。因此,自动化文本分类技术的研究显得尤为重要,引起了学术界和工业界的广泛关注。学术资源分类是依据学术数据的基本内容,发掘一些与类别紧密关联的特征和信息,将资源映射到具体类别的过程。传统的机器学习方法高度依赖人为选择的特征,泛化以及领域迁移能力较差。采用深度学习方法将特征工程融合于模型的构建过程中,从而减少人为设计特征的不完备性和冗余是当前的研究热点。本文面向海量学术数据,根据跨类型学术资源的基本特点,分别设计了对应的分类模型,包括基于双向GRU网络与注意力机制的文... 

【文章来源】:宁波大学浙江省

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
引言
1 绪论
    1.1 文本分类研究背景
    1.2 课题研究背景与意义
    1.3 当前面临的问题
    1.4 论文的主要工作
    1.5 论文的组织结构
2 文本分类综述
    2.1 文本分类的发展历程
    2.2 文本分类概述
    2.3 文本分类的关键技术
        2.3.1 文本预处理
        2.3.2 词向量与文本表示
        2.3.3 特征选择
        2.3.4 特征抽取
    2.4 分类算法
    2.5 深度学习与文本分类
        2.5.1 卷积神经网络
        2.5.2 循环神经网络
        2.5.3 注意力机制
    2.6 评价指标
    2.7 本章小结
3 基于BiGRU网络与Attention机制的学术资源分类模型
    3.1 GRU与 BiGRU
    3.2 卷积层
    3.3 注意力机制
    3.4 Softmax层
    3.5 基于注意力池化方法的专利标题分类
    3.6 实验
        3.6.1 实验环境和数据集
        3.6.2 实验设计
        3.6.3 实验结果与分析
    3.7 本章小结
4 基于关键词特征和卷积神经网络的学术资源分类模型
    4.1 引入类别信息的CI-TFDF算法
    4.2 基于CI-TFDF算法的文本分类
    4.3 改进的卷积神经网络
        4.3.1 输入层的特征拼接结构
        4.3.2 最大-均值池化层
        4.3.3 全连接层Maxout+Dropout
        4.3.4 Softmax层
    4.4 混合模型(Hybrid Model)
        4.4.1 混合模型与文本分类
        4.4.2 混合模型与关键词抽取
        4.4.3 词性特征
    4.5 实验
        4.5.1 实验数据集
        4.5.2 实验设计及评估指标
        4.5.3 实验结果与分析
    4.6 本章小结
5 结论
    5.1 工作总结
    5.2 研究展望
参考文献
在学研究成果
致谢
Abstract of Thesis
论文摘要


【参考文献】:
期刊论文
[1]结合改进的CHI统计方法的TF-IDF算法优化[J]. 马莹,赵辉,李万龙,庞海龙,崔岩.  计算机应用研究. 2019(09)
[2]基于多通道卷积神经网络的中文微博情感分析[J]. 陈珂,梁斌,柯文德,许波,曾国超.  计算机研究与发展. 2018(05)
[3]基于LDA扩展主题词库的主题爬虫研究[J]. 费晨杰,刘柏嵩.  计算机应用与软件. 2018(04)
[4]深度神经网络训练中梯度不稳定现象研究综述[J]. 陈建廷,向阳.  软件学报. 2018(07)
[5]基于主题增强卷积神经网络的用户兴趣识别[J]. 杜雨萌,张伟男,刘挺.  计算机研究与发展. 2018(01)
[6]结合注意力机制的长文本分类方法[J]. 卢玲,杨武,王远伦,雷子鉴,李莹.  计算机应用. 2018(05)
[7]面向大规模图像分类的深度卷积神经网络优化[J]. 白琮,黄玲,陈佳楠,潘翔,陈胜勇.  软件学报. 2018(04)
[8]基于多注意力卷积神经网络的特定目标情感分析[J]. 梁斌,刘全,徐进,周倩,章鹏.  计算机研究与发展. 2017(08)
[9]跨类型的学术资源优质推荐算法研究[J]. 尹丽玲,刘柏嵩,王洋洋.  情报学报. 2017(07)
[10]基于CP-CNN的中文短文本分类研究[J]. 余本功,张连彬.  计算机应用研究. 2018(04)



本文编号:3229248

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3229248.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0609f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com