当前位置:主页 > 管理论文 > 移动网络论文 >

基于语义相似度的学术文献引文网络社区发现算法改进

发布时间:2021-04-06 23:02
  引文网络是一种以科技文献为节点,文献之间的引用关系为边所形成的一种网络,是知识发现领域使用最多的重要工具之一,引文网络属于复杂网络的一个分支,具有复杂网络的一般性特征,比如小世界、集聚性等。引文网络是科研人员用来进行学科预测和评估热点领域的一种工具,最初并不涉及文本的研究,随着人工智能的发展,文本数据作为重要的信息来源之一,在引文网络中引入文本属性已经变成可能,但由于文献篇幅通常较长,对每一篇文献的全部内容进行文本分析往往效率低下而且并无必要。学术文献具有结构规范,特征清晰的特点,仅标题、摘要和关键词就可以了解文章大致主题,所以对引文网络进行文本分析时,只需要利用上述三者组成的文本作为文献的文本属性即可获得文章的主题信息。对引文网络进行文本特征分析时,使用的是标题、摘要和关键词组成的短文本,由于短文本的词汇矩阵稀疏性,传统的BOW+TFIDF+VSM/LSA体系和神经网络模型在分析引文网络的文本特征时效果并不理想。基于此,结合文本挖掘和社区发现技术,本文提出一种基于语义相似度的引文网络模型,以文档之间的语义关系以及引文之间的引用关系为基础,结合词汇在文档中的位置关系和结构,构建基于词汇... 

【文章来源】:济南大学山东省

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

基于语义相似度的学术文献引文网络社区发现算法改进


社区示意图

示意图,示意图,词汇,向量


济南大学硕士学位论文19图2.2word2vec训练过程示意图在上图中,目标词汇的上下文单词的One-Hot模型作为输入数据,假设目标词汇的维度为V,以C为半径,即上下文单词各为C,输入数据与输入权重矩阵×矩阵相乘,N为设定的维度,对矩阵W进行初始化,结果作为隐藏层向量,大小为N,乘以输出权重矩阵×,并用神经网络模型处理即可得到一个一维向量V。向量维度代表语料库中的词汇,其中概率最大的索引层即为预测出的中间词汇,并根据truelabel的One-Hot做比较,定义目标损失函数,使误差越小越好。(4)GloVe模型LSA虽然有效利用了词汇的全局统计信息,但是在词汇语义精度上效果不佳,而基于CBOW和Skip-gram的Word2Vec虽然可以很好地进行词汇类比,但是该方法是利用词汇前后的窗口信息对词汇进行训练,没有有效地利用全局的词汇共现统计信息,也会造成一定的语义丢失。斯坦福NLP(NaturalLanguageProcessing)小组[19]在2014年提出一种新的词汇表征方法---GloVe(GlobalVectorsforWordRepresentation)模型,它结合了Word2Vec以及LSA模型的优点,训练出的词汇向量不仅可以有效捕捉到词汇的

示意图,示意图,仓库,工厂


济南大学硕士学位论文253.1.2词移距离—文档相似性度量在考虑引文网络的结构关系与语义关系的前提下,本文选用词移距离(WordMover"sDistance,WMD)来度量节点相似性(文献间的相似度),WMD是一种文本相似度量方法,WMD起源于EMD模型,EMD(EarthMover’sDistance)[51]是一种在约束条件下求解运输问题最优解的一种方法,可以对多分布进行距离测量。EMD主要原理如下:假设在工厂生产中有如下问题,产品需要从多个工厂运输到多个仓库进行存储,求解运输过程的最短距离,如下图所示,图3.1运输示意图1到代表m座工厂,假设工厂有重量为的货物,1到代表m个仓库,仓库的最大容量为,运输过程中需遵循以下规则:仓库应尽可能多的存储产品,运输过程中距离应尽可能短。则EMD求得的最优解即为产品从P运输到Q的过程最高效的方式。在问题中,工厂和仓库都是离散的,EMD运用Hungarian算法计算它们之间的距离,假设货物从工厂运到仓库,距离是,运送货物的重量为,则一次运输所需要的工作量为,显然,距离越远或货物越重,工作量就越大(运输可能是多对多的,即一个工厂运输产品到多个仓库,或者一个仓库接收多个工厂的产品。)产品从工厂运到仓库需要很多次这样的运输,经过一些计算和优化,这时我们得到了工作量总和的最小值W,=∑∑(3.1)11…………分布P分布Q距离重量

【参考文献】:
期刊论文
[1]基于GloVe词向量的“技术——应用”发现研究[J]. 吉久明,施陈炜,李楠,康健.  现代情报. 2019(04)
[2]基于GloVe模型的词向量改进方法[J]. 陈珍锐,丁治明.  计算机系统应用. 2019(01)
[3]期刊与会议的混合共被引网络分析——以计算机科学领域为例[J]. 孙瑶,王贤文.  中国科技期刊研究. 2018(11)
[4]基于引文网络的潜在跨学科合作者识别——以图书情报学为例[J]. 李长玲,冯志刚,刘运梅,刘小慧.  情报资料工作. 2018(03)
[5]共词网络LDA模型的中文短文本主题分析[J]. 蔡永明,长青.  情报学报. 2018(03)
[6]基于样本加权的引文网络的社团划分[J]. 肖雪,王钊伟,陈云伟,邓勇.  图书情报工作. 2016(20)
[7]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春.  计算机科学. 2016(06)
[8]基于Histcite工具的引文网络实证研究[J]. 李瑞波,张琳,王珏,刘凤琴,董颖.  情报科学. 2015(10)
[9]基于引文网络挖掘和时序分析的知识扩散研究[J]. 邱均平,李小涛.  情报理论与实践. 2014(07)
[10]词干提取方法及工具的对比分析研究[J]. 吴思竹,钱庆,胡铁军,李丹亚,李军莲,洪娜.  图书情报工作. 2012(15)

博士论文
[1]科学学引文网络的结构研究[D]. 尹丽春.大连理工大学 2006

硕士论文
[1]基于影响力流识别引文网络中的主路径研究[D]. 程洁琼.华中师范大学 2019
[2]基于引文网络的学术传承性文献识别方法研究[D]. 郭倩影.北京协和医学院 2019
[3]数字人文领域的知识网络研究[D]. 陈路遥.华东师范大学 2018
[4]基于复杂网络的知识图谱构建与应用研究[D]. 段涵特.国防科技大学 2017
[5]基于几何图的科学引文网络建模与分析[D]. 刘齐.国防科学技术大学 2016
[6]基于词袋模型的人脸表情识别研究[D]. 王涛.华中科技大学 2013



本文编号:3122309

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3122309.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3af0e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com