当前位置:主页 > 科技论文 > 软件论文 >

基于梯度渐进回归树的引文推荐方法研究

发布时间:2017-04-07 15:22

  本文关键词:基于梯度渐进回归树的引文推荐方法研究,由笔耕文化传播整理发布。


【摘要】:近年来,随着科学技术的迅速发展,科研文献的数量呈爆炸式增长。科研文献的传播能够促进学术成果的交流,从而使科学技术得到不断发展。对于科研工作者来说,难以快速地从海量文献中发现真正需要的文献。引文推荐目的在于根据用户的查询输入准确而快速地为用户推荐可能需要引用的文献,提高用户获取参考文献的效率。本文主要研究引文推荐,即根据论文的标题和摘要推荐出论文可能需要引用的文献。为此,本文设计和实现了一种基于梯度渐进回归树的引文推荐方法,将引文推荐看作一个分类问题。本文的两个关键点是评估候选引文的影响力和查询输入与候选引文的相关度。本文利用论文未来的引用次数来评估其影响力,将论文引用次数预测看作一个回归问题。针对论文引用次数预测,本文提出了基于主题分布的内容类特征提取方法、基于作者合作矩阵的作者类特征提取方法、以及基于Stacking方法的论文引用次数预测方法。针对引文推荐,本文提出了基于向量空间模型和KL距离的查询输入与候选引文的相关度特征提取方法、以及基于梯度渐进回归树的引文推荐方法。分类特征包括用于论文引用次数预测的内容类特征和作者类特征、查询输入与候选引文的相关度特征。KDD CUP数据集上的实验结果表明,基于Stacking方法的论文引用次数预测结果优于基于单个回归模型的引用次数预测结果,基于梯度渐进回归树的引文推荐结果优于基于Lucene的引文检索结果。因此,实验结果表明了本文方法的有效性。
【关键词】:引用次数预测 引文推荐 Stacking方法 梯度渐进回归树
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 绪论9-17
  • 1.1. 研究背景和意义9-11
  • 1.2. 国内外研究现状11-14
  • 1.3. 本文的研究内容和目的14-16
  • 1.4. 论文的组织结构16-17
  • 第2章 论文引用次数预测17-40
  • 2.1. 论文引用次数预测算法概述17-19
  • 2.2. 论文主题分布生成19-20
  • 2.3. 主题关联概率计算20-22
  • 2.4. 作者合作矩阵构造22-24
  • 2.5. 特征提取24-30
  • 2.5.1. 内容类特征24-27
  • 2.5.2. 作者类特征27-30
  • 2.6. 回归模型30-35
  • 2.6.1. 线性回归31-32
  • 2.6.2. 支持向量机32-33
  • 2.6.3. 随机森林33
  • 2.6.4. 梯度渐进回归树33-34
  • 2.6.5. 初始化的梯度渐进回归树34-35
  • 2.7. 基于Stacking方法的论文引用次数预测35-38
  • 2.8. 本章小结38-40
  • 第3章 引文推荐40-50
  • 3.1. 基于梯度渐进回归树的引文推荐40-43
  • 3.2. 候选引文选取43-48
  • 3.2.1. 倒排索引构建43-45
  • 3.2.2. 基于倒排索引的检索45-48
  • 3.3. 相关度特征提取48-49
  • 3.4. 本章小结49-50
  • 第4章 系统实现与实验结果分析50-66
  • 4.1. 引文推荐系统50-53
  • 4.1.1. 系统主要功能50
  • 4.1.2. 系统体系结构50-53
  • 4.2. 实验数据53-55
  • 4.3. 评估指标55-56
  • 4.4. 论文引用次数预测实验结果56-64
  • 4.4.1. 不同特征集合的实验结果56-57
  • 4.4.2. 单个特征对结果的影响57-60
  • 4.4.3. 基于Stacking方法的实验结果60-64
  • 4.5. 引文推荐实验结果64-65
  • 4.6. 本章小结65-66
  • 结论66-68
  • 参考文献68-71
  • 攻读学位期间发表论文与研究成果清单71-72
  • 致谢72

【相似文献】

中国期刊全文数据库 前10条

1 ;关于发布本刊论文被引次数的通知[J];动物营养学报;2014年04期

2 ;本刊被SCI-EXPANDED引用论文[J];中国生物化学与分子生物学报;2000年04期

3 ;2005年12月6日科技部中国科技信息研究所公布的2004年度中国科技期刊的引用次数总排名[J];地质学报;2006年01期

4 ;中国近十年论文总引用次数超过五百万[J];科技传播;2012年03期

5 flyingphoenix;IT十大名言[J];电脑爱好者;2003年06期

6 蒋悟生;20种国际著名科学期刊介绍[J];世界科学;2000年09期

7 张荔子;国科技论文产出世界第五 医药卫生期刊竞争力强劲[J];世界华人消化杂志;2004年04期

8 ;2001年度中国科技论文统计结果[J];北京大学学报(自然科学版);2003年01期

9 ;影响与名气[J];开放教育研究;2012年04期

10 Christopher King;莫京;马建华;;2011热点研究论文和作者[J];科学观察;2012年04期

中国重要报纸全文数据库 前10条

1 本报记者 李大庆;中国国际科技论文被引用次数跻身世界前五[N];科技日报;2013年

2 记者 桂运安;科大论文平均被引用次数高居榜首[N];安徽日报;2013年

3 记者 柯进;八成表现不俗论文出自高校[N];中国教育报;2012年

4 新讯;中科院地质论文引用次数排第五[N];地质勘查导报;2007年

5 记者 张蕾 袁于飞;我国发表科技论文数世界第二[N];光明日报;2011年

6 记者 桂运安;中科大论文被引用次数全国第一[N];安徽日报;2010年

7 记者 赵亚辉;我国科技论文数量跃居世界第四[N];人民日报;2006年

8 解读人 中国科学技术信息研究所研究员 武夷山;SCI论文数量世界第二[N];人民日报;2012年

9 本报记者 袁志勇;论文质量评价要看具体引用次数[N];科技日报;2008年

10 记者 翟帆;“表现不俗”论文八成出自高校[N];中国教育报;2011年

中国硕士学位论文全文数据库 前1条

1 陈俊鹏;基于梯度渐进回归树的引文推荐方法研究[D];北京理工大学;2016年


  本文关键词:基于梯度渐进回归树的引文推荐方法研究,由笔耕文化传播整理发布。



本文编号:290759

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/290759.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户18b85***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com