基于学术网络的新论文影响力预测
发布时间:2020-07-17 19:54
【摘要】:近年来,论文发表数量呈现指数型增长趋势。从海量论文集中,挖掘新论文的潜在影响力、发现高质量的新论文不仅能够有效帮助研究人员快速地挑选新论文,而且帮助研究人员了解领域技术的最新动态。然而高引论文所占比例较低,论文影响力存在差异,而且新论文在发表时期没有任何引用记录,基于论文引用数量的传统方法不能衡量新论文影响力或者评价新论文质量。因此挖掘新论文的潜在影响力、发现高质量新论文是一个具有挑战性的问题。为解决新论文影响力预测问题,本文将作者、论文作为节点,以作者与作者的合作关系、论文与论文之间的引用关系以及作者与论文之间的从属关系作为边,构建学术网络。本文基于学术网络预测新论文影响力,主要解决两方面的挑战:论文库的不断更新导致主题的动态演变、时间敏感的主题关注度变动以及作者主题相关权威性的波动;多因素对论文影响力的联合影响。针对主题的动态演变、时间敏感的主题关注度变动以及作者主题相关权威性的变动的挑战,本文首先引入了动态主题模型。该模型拓展了传统的状态空间模型,学习每个主题-词的概率分布随时间的演变过程;然后本文依据动态主题模型学习所得的主题概率分布衡量主题在不同时期的关注度;最后本文基于论文之间引用关系,使用PageRank算法计算论文潜在影响力,并结合论文动态主题的概率分布,获得论文作者主题相关权威性的特征向量。本文结合作者在不同主题上的权威的特征向量以及新论文的主题概率分布,利用向量叉积原理,衡量作者主题相关的权威性如何作用于不同主题分布的新论文。针对多因素对论文影响力的联合影响的挑战,本文从作者之间、研究团体内部以及研究团体之间分析作者相关的社交因素。此外本文还分析了论文发表的会议或者期刊的权威性特征。本文利用因式分解机模型,联合分析各类特征对新论文影响力预测的影响。因式分解机模型对新论文每一特征维度,使用潜在向量进行表示,并利用随机梯度下降算法,学习潜在向量。通过使用向量点积表示特征之间潜在关联关系,并且利用学习所得的潜在向量,对新论文影响力进行预测。本文使用从ACM电子图书馆爬取的数据集,首先对新论文影响力的预测结果以及论文影响力排名进行验证,并且和其他论文影响力预测方法进行对比。实验结果表明本文方法的有效性。其次对时间敏感的主题关注度、作者主题相关的权威性以及作者社交性对新论文在不同时间的影响进行研究。此外本文设计实现基于移动设备的IPS(Influence Prediction System)系统,实现论文主题概率分布以及影响力预测结果的展示以及作者主题相关的权威性排名等。此外本文对IPS系统进行相关的功能测试和性能测试,测试结果表明系统能够正常运行。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;G353.1
【图文】:
高引论文仅有20131篇。Garfield等人⑵发现通常20%的文章的引用数量占80%逡逑左右的总数量,而剩余的论文引用次数很少,甚至没有被引用过。论文引用符逡逑合幂率分布,依据本文爬取的ACM电子图书馆数据集统计如图1-1所示。所逡逑以在数量爆炸性增长的新论文中,并不是所有新论文都能对社会或者个人有着逡逑重要影响。传统方法评价论文影响力主要通过论文的引用数量或者基于引用的逡逑变型方式,如PageRank值或者h-index值等。由于新论文在发表前期没有任何逡逑引用记录,因此传统方法不能衡量新论文影响力或者评价新论文质量。有效的逡逑论文影响力预测方法需要能够很好适应急速增长的论文数量,能够在海量发表逡逑的论文集中对新论文的影响力进行准确地预测。因此挖掘新论文的潜在影响力、逡逑发现高质量新论文是一个具有挑战性的问题。逡逑I逡逑
图1-2新论文影响力预测框架图逡逑1.针对主题的动态演变、主题关注度的波动以及作者主题相关的权威性的逡逑变动的挑战,本文首先面向带有时序性特征的语料库,使用Dynamic邋Topic逡逑Model(DTM严模型,学习论文的文章-主题的概率分布以及主题-单词的动态概逡逑率分布,以达到学习动态主题的目的。DTM模型认为主题-词概率分布会随着逡逑时间变化,且满足一阶马尔可夫假设,主题概率分布的超参数以及主题中词项逡逑的概率分布参数随时间变化,且于前一时间的态,
到影响力预测目的,使得模型能够解决新论文带来的数据稀疏问题。逡逑基于前面章节的特征提取,对于数据集中所有论文特征提取形成特征矩阵逡逑P邋e邋R^,其中n为论文数量,k为每篇论文的特征维度,其中第i行疚B徭恚]3?示第i篇论文的特征向量,yi为论文的引用量,如图3-6所示,对每一元组(济,yi)逡逑作为模型的输入与训练。逡逑论文特征向量逦卩丨肖Q戝义希埃埃卞澹埃埃冲危埃卞危危埃埃冲危埃村危埃插危危埃靛危埃埃卞危埃卞危担瑰危冲澹义希瑁簦赍澹瑁簦插澹瑁簦冲危危桑粒赍危桑粒插澹桑粒冲危危蹋茫缅澹牛恚忮澹樱儒澹龋担椋睿洌澹义希沃魈馊榷儒沃魈庀喙厝ㄍ杂跋戾紊缃灰蛩劐宸⒈淼兀义贤迹常堵畚奶卣飨蛄渴疽馔煎义细葜把八寐畚哪谌萏卣鳌⒆髡呦喙靥卣饕约奥畚姆⒈淼氐闾卣鳎义闲纬尚侣畚牡奶卣飨蛄浚⑶沂褂们痹谙蛄恳樱邋味蕴卣飨蛄康牡冢槲冉绣义厦枋觯迹常罚痹谙蛄坎痪哂惺导室庖澹砥湓げ夂硎疚哄义希耍觯襄澹藉澹
本文编号:2759867
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;G353.1
【图文】:
高引论文仅有20131篇。Garfield等人⑵发现通常20%的文章的引用数量占80%逡逑左右的总数量,而剩余的论文引用次数很少,甚至没有被引用过。论文引用符逡逑合幂率分布,依据本文爬取的ACM电子图书馆数据集统计如图1-1所示。所逡逑以在数量爆炸性增长的新论文中,并不是所有新论文都能对社会或者个人有着逡逑重要影响。传统方法评价论文影响力主要通过论文的引用数量或者基于引用的逡逑变型方式,如PageRank值或者h-index值等。由于新论文在发表前期没有任何逡逑引用记录,因此传统方法不能衡量新论文影响力或者评价新论文质量。有效的逡逑论文影响力预测方法需要能够很好适应急速增长的论文数量,能够在海量发表逡逑的论文集中对新论文的影响力进行准确地预测。因此挖掘新论文的潜在影响力、逡逑发现高质量新论文是一个具有挑战性的问题。逡逑I逡逑
图1-2新论文影响力预测框架图逡逑1.针对主题的动态演变、主题关注度的波动以及作者主题相关的权威性的逡逑变动的挑战,本文首先面向带有时序性特征的语料库,使用Dynamic邋Topic逡逑Model(DTM严模型,学习论文的文章-主题的概率分布以及主题-单词的动态概逡逑率分布,以达到学习动态主题的目的。DTM模型认为主题-词概率分布会随着逡逑时间变化,且满足一阶马尔可夫假设,主题概率分布的超参数以及主题中词项逡逑的概率分布参数随时间变化,且于前一时间的态,
到影响力预测目的,使得模型能够解决新论文带来的数据稀疏问题。逡逑基于前面章节的特征提取,对于数据集中所有论文特征提取形成特征矩阵逡逑P邋e邋R^,其中n为论文数量,k为每篇论文的特征维度,其中第i行疚B徭恚]3?示第i篇论文的特征向量,yi为论文的引用量,如图3-6所示,对每一元组(济,yi)逡逑作为模型的输入与训练。逡逑论文特征向量逦卩丨肖Q戝义希埃埃卞澹埃埃冲危埃卞危危埃埃冲危埃村危埃插危危埃靛危埃埃卞危埃卞危担瑰危冲澹义希瑁簦赍澹瑁簦插澹瑁簦冲危危桑粒赍危桑粒插澹桑粒冲危危蹋茫缅澹牛恚忮澹樱儒澹龋担椋睿洌澹义希沃魈馊榷儒沃魈庀喙厝ㄍ杂跋戾紊缃灰蛩劐宸⒈淼兀义贤迹常堵畚奶卣飨蛄渴疽馔煎义细葜把八寐畚哪谌萏卣鳌⒆髡呦喙靥卣饕约奥畚姆⒈淼氐闾卣鳎义闲纬尚侣畚牡奶卣飨蛄浚⑶沂褂们痹谙蛄恳樱邋味蕴卣飨蛄康牡冢槲冉绣义厦枋觯迹常罚痹谙蛄坎痪哂惺导室庖澹砥湓げ夂硎疚哄义希耍觯襄澹藉澹
本文编号:2759867
本文链接:https://www.wllwen.com/tushudanganlunwen/2759867.html
教材专著