面向学术大数据的热点发现方法研究及应用

发布时间:2021-10-08 09:18
  创新是科技发展和社会进步的核心驱动力。对科研人员而言,紧追当前最新的学术热点,不断发现新问题并提出新方法,是保持学术创新的主要途径。据不完全统计,2018年全球发表的学术论文量已达到300万余篇。除此之外,学术信息还包括新闻、博客等。面对大量的学术数据,研究人员如何快速高效地找到感兴趣的信息是一个难题。解决此问题的一个有效方法是:基于少量的文本挖掘出符合文章含义的关键词,从学术大数据中找到当前的研究热点并推荐给相关学者。基于上述思想,本文的主要研究内容如下:(1)提出了基于DeepWalk的关键词提取算法。关键词提取是发现学术热点的主要技术。然而,由于新兴研究领域的学术论文相对较少,文章之间的关键词共现关系难以捕捉。不同于已有方法,本文将每篇文章作为单独的个体进行关键词提取。具体步骤为:首先,在由单篇文章构成的语义网络中,采用随机游走的策略获取每个词汇的特征向量;然后,结合词汇的其它附属特征,通过分类器选取排名较高的词汇作为该论文的关键词。(2)提出了基于图卷积网络的关键词提取算法。本算法首次将图卷积网络应用在关键词提取的问题上。当某个研究领域相对成熟时,领域内所包含的相关文章数量较多... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:55 页

【学位级别】:硕士

【部分图文】:

面向学术大数据的热点发现方法研究及应用


基于DeepWalk的关键词提取实验结果-精准率

实验结果,共现关系,关键词提取,当关


图 4.2 基于 GCN 的关键词提取实验结果-精准率本算法的优势在于当关键词在不同文章中存在共现关系时,本算法可以将一文章中出现次数少但在多篇文章中出现次数多的关键词提取出来。由于本文使用的每个数据集中的数据存在关键词的共现关系,因此,实验的,当关键词在不同文章中出现的次数较多时,基于 GCN 的关键词提取算法效当本算法不考虑关键词在不同文章之间的共现关系时,我们对每个数据集均的 100 篇文章进行测试,本算法的实验结果与基于 DeepWalk 的关键词提取算表 4.3 所示。表 4.3 单篇文章两种关键词提取算法的实验结果对比数据集 算法 Precision recall F1-ScoreClu_Com Our model1 13.9% 15.7% 14.5%Our model2 14.8% 17.2% 15.7%SemEval Our model1 5.9% 8.8% 6.9%Our model2 7.0% 9.1% 7.7%

关键词提取,实验结果,时间效率,提取算法


第 4 章 实验分析及算法应用从表 4.3 中的实验的结果来看,两种算法在准确率的评估上,相差甚微。但w 与 Inspec 两种数据集上,基于 DeepWalk 的关键词提取算法正确率更高一些篇文章采用 DeepWalk 算法进行关键词提取的时间效率比基于 GCN 进行关键效率要高很多。从图 4.3 中可以更直观的看出两者在精准率上相差甚微。

【参考文献】:
期刊论文
[1]话题检测与跟踪的评测及研究综述[J]. 洪宇,张宇,刘挺,李生.  中文信息学报. 2007(06)



本文编号:3423874

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3423874.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2e63b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com