基于深度学习的学术论文推荐研究
发布时间:2021-06-19 20:48
学术论文作为科研人员重要的学术资源之一,在整个科学研究过程起着至关重要的作用。进入互联网时代后,每天都有大量学术论文被发表出来,学术论文迎来了爆发式增长,用户面临着日益严重的“论文信息过载”问题。针对这个问题,有研究者提出了学术论文推荐服务。学术论文推荐被认为是缓解“论文信息过载”的有效途径之一,可以为用户提供个性化论文推荐服务,提高科研用户效率。然而,传统学术论文推荐方法在不同程度呈现一些弊端,无法生成令人满意的推荐结果,亟待一种技术可以改进传统学术论文推荐方法,提升论文推荐效果和用户满意度。深度学习技术作为机器学习的一个分支,近些年在自然语言处理、图像识别、语音合成等领域取得巨大进展,受到了众多研究者的关注。在此背景下,若能将深度学习技术融入学术论文推荐场景,势必可以有效提升学术论文推荐效果。本文针对上述问题,展开了相关研究,主要的工作内容总结如下:(1)通过文献梳理了当下学术论文推荐研究现状,发现传统推荐方法普遍存在冷启动和数据稀疏问题,无法有效预测用户隐性评分,这将是本文的主要研究问题;随后,梳理了推荐系统中常用的推荐方法、评估指标;(2)本文基于前人研究基础,设计并构建了一个...
【文章来源】:南京航空航天大学江苏省 211工程院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
LSTM循环单元结构图
基于深度学习的学术论文推荐研究(1)Word2VecWord2Vec 是 Google 的 Mikolov 提出的,分别用到了前面提到的两个分布式表示模型——Skip-gram 和 CBOW(如图 2.2 所示)[81]。Google 后来将其开源,研究者可以免费使用,去训练百万甚至上亿条的数据集。其中 Skip-gram 主要是根据中心单词 w 来预测它所在的句子语境的概率;而 CBOW 则是根据中心词 w 所在的句子语境来预测中心单词 w 的概率。CBOW 比较适合小规模数据集,而 Skip-gram 适合大规模数据集。
数据预处理主要负责对本文选择的数据集进行初步处理操作,包括数据集划分、停用词移除、词向量载入等操作,通过预处理操作,为后续实验提供高质量的数据集。(1)数据集划分本文这里将按照惯用实验数据集惯用的二八法则对数据集进行切分操作——即将 80%数据作为训练集、10%数据作为验证集和 10%数据作为测试集,80%的数据用于模型训练和调优,10%的数据用于交叉验证,10%的数据用于模型效果评估。(2)数据预处理为了提取每篇学术论文的内容特征,本文进行如下的操作:① 合并论文标题和摘要得到论文文本信息 ,设置最大长度为 300,如果论文信息长度不足 300,则在后面采取惯用的零填充方法;若长度超过 300,则右侧进行截断操作;② 先去除停用词,并且使用 TF-IDF 方法的选区出现排名靠前的 8000 个词汇作为词库 V,最终得到每篇论文文本信息 ,处理完成后存储到本地文件,每条记录格式为:paper_id::text1|text2|text3(如图 3.1 所示)。这里词汇 TF-IDF 计算和停用词处理使用了 scikit-learn开源包的提供的 TfidfVectorizer 和 CountVectorizer 方法;
【参考文献】:
期刊论文
[1]融合Word2vec与时间因素的馆藏学术论文推荐算法[J]. 陈长华,李小涛,邹小筑,叶志锋. 图书馆论坛. 2019(05)
[2]基于深度学习的论文个性化推荐算法[J]. 王妍,唐杰. 中文信息学报. 2018(04)
[3]基于深度学习的推荐系统研究综述[J]. 黄立威,江碧涛,吕守业,刘艳博,李德毅. 计算机学报. 2018(07)
[4]基于SOM神经网络的高校图书馆个性化推荐服务系统构建[J]. 刘爱琴,李永清. 图书馆论坛. 2018(04)
[5]深度学习相关研究综述[J]. 张军阳,王慧丽,郭阳,扈啸. 计算机应用研究. 2018(07)
[6]跨类型的学术资源优质推荐算法研究[J]. 尹丽玲,刘柏嵩,王洋洋. 情报学报. 2017(07)
[7]融合相关性与多样性的学术论文推荐方法研究[J]. 李响,谭静. 情报理论与实践. 2017(06)
[8]基于跨域协同的移动图书馆个性化推荐模型研究[J]. 李宇航,夏绍模,程华亮. 情报科学. 2017(03)
[9]学术社交平台论文推荐方法[J]. 汤志康,李春英,汤庸,黄泳航,蔡奕彬. 计算机与数字工程. 2017(02)
[10]MFWT:一种推荐学术论文的混合模型[J]. 卢美莲,张正林,刘智超. 北京邮电大学学报. 2016(04)
博士论文
[1]基于信息需求变迁的时序引用文献推荐技术研究[D]. 蒋卓人.大连海事大学 2015
硕士论文
[1]基于异构图的学术论文推荐系统[D]. 潘林林.南京大学 2015
[2]基于内容与引用关系的学术论文推荐[D]. 蔡阿妮.华东师范大学 2014
[3]高质量学术资源推荐方法的研究与实现[D]. 高洁.北京邮电大学 2014
[4]基于主题模型的学术论文推荐系统研究[D]. 黄泽明.大连海事大学 2013
本文编号:3238514
【文章来源】:南京航空航天大学江苏省 211工程院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
LSTM循环单元结构图
基于深度学习的学术论文推荐研究(1)Word2VecWord2Vec 是 Google 的 Mikolov 提出的,分别用到了前面提到的两个分布式表示模型——Skip-gram 和 CBOW(如图 2.2 所示)[81]。Google 后来将其开源,研究者可以免费使用,去训练百万甚至上亿条的数据集。其中 Skip-gram 主要是根据中心单词 w 来预测它所在的句子语境的概率;而 CBOW 则是根据中心词 w 所在的句子语境来预测中心单词 w 的概率。CBOW 比较适合小规模数据集,而 Skip-gram 适合大规模数据集。
数据预处理主要负责对本文选择的数据集进行初步处理操作,包括数据集划分、停用词移除、词向量载入等操作,通过预处理操作,为后续实验提供高质量的数据集。(1)数据集划分本文这里将按照惯用实验数据集惯用的二八法则对数据集进行切分操作——即将 80%数据作为训练集、10%数据作为验证集和 10%数据作为测试集,80%的数据用于模型训练和调优,10%的数据用于交叉验证,10%的数据用于模型效果评估。(2)数据预处理为了提取每篇学术论文的内容特征,本文进行如下的操作:① 合并论文标题和摘要得到论文文本信息 ,设置最大长度为 300,如果论文信息长度不足 300,则在后面采取惯用的零填充方法;若长度超过 300,则右侧进行截断操作;② 先去除停用词,并且使用 TF-IDF 方法的选区出现排名靠前的 8000 个词汇作为词库 V,最终得到每篇论文文本信息 ,处理完成后存储到本地文件,每条记录格式为:paper_id::text1|text2|text3(如图 3.1 所示)。这里词汇 TF-IDF 计算和停用词处理使用了 scikit-learn开源包的提供的 TfidfVectorizer 和 CountVectorizer 方法;
【参考文献】:
期刊论文
[1]融合Word2vec与时间因素的馆藏学术论文推荐算法[J]. 陈长华,李小涛,邹小筑,叶志锋. 图书馆论坛. 2019(05)
[2]基于深度学习的论文个性化推荐算法[J]. 王妍,唐杰. 中文信息学报. 2018(04)
[3]基于深度学习的推荐系统研究综述[J]. 黄立威,江碧涛,吕守业,刘艳博,李德毅. 计算机学报. 2018(07)
[4]基于SOM神经网络的高校图书馆个性化推荐服务系统构建[J]. 刘爱琴,李永清. 图书馆论坛. 2018(04)
[5]深度学习相关研究综述[J]. 张军阳,王慧丽,郭阳,扈啸. 计算机应用研究. 2018(07)
[6]跨类型的学术资源优质推荐算法研究[J]. 尹丽玲,刘柏嵩,王洋洋. 情报学报. 2017(07)
[7]融合相关性与多样性的学术论文推荐方法研究[J]. 李响,谭静. 情报理论与实践. 2017(06)
[8]基于跨域协同的移动图书馆个性化推荐模型研究[J]. 李宇航,夏绍模,程华亮. 情报科学. 2017(03)
[9]学术社交平台论文推荐方法[J]. 汤志康,李春英,汤庸,黄泳航,蔡奕彬. 计算机与数字工程. 2017(02)
[10]MFWT:一种推荐学术论文的混合模型[J]. 卢美莲,张正林,刘智超. 北京邮电大学学报. 2016(04)
博士论文
[1]基于信息需求变迁的时序引用文献推荐技术研究[D]. 蒋卓人.大连海事大学 2015
硕士论文
[1]基于异构图的学术论文推荐系统[D]. 潘林林.南京大学 2015
[2]基于内容与引用关系的学术论文推荐[D]. 蔡阿妮.华东师范大学 2014
[3]高质量学术资源推荐方法的研究与实现[D]. 高洁.北京邮电大学 2014
[4]基于主题模型的学术论文推荐系统研究[D]. 黄泽明.大连海事大学 2013
本文编号:3238514
本文链接:https://www.wllwen.com/tushudanganlunwen/3238514.html