当前位置:主页 > 社科论文 > 图书档案论文 >

基于论文数据的重要科学成果挖掘

发布时间:2020-10-09 16:56
   近年来,世界发生着翻天覆地的变化,科技人才和科研成果创新成为了推动着社会进步、百姓富裕、国家繁荣昌盛的最重要力量,也是国家在未来国际关系中决胜的关键。过去对于科研成果的评价体系中,主要是以情报人员、研究人员和专家学者为主导进行评价总结,使得评价结果不够准确和客观,专家人工筛选所有资源和研究成果的工作量非常巨大,成本很高。通过梳理近几年来对于科学论文重要性评估的评判标准,发现大部分的分析方法是利用科学论文的引用信息构建数学模型拟合出科学论文的重要性,而且使用的信息主要是论文引用,采用的很多方法都是移植社会科学、经济管理学和数学等学科的成熟模型,而利用机器学习等方法评估科学论文重要性的文章较少。因此本论文重点关注如何利用多源的科学论文信息以及统计机器学习等方法来构建出客观、高效、实时的重要科学论文挖掘模型,阐述了科学论文的定向采集算法,构建了重要科学论文挖掘的图结构模型,分析了热点的研究方向。在科学论文的统计分析基础上本论文还对科学论文的重要性深入挖掘,将论文的引用、下载量、浏览量、社交网络和新闻媒体等因素结合成多源特征,在论文发表后的早期,构建了以月份为单位的时序多源特征和论文发表后两年内的状态多源特征,更加细致地刻画了科学论文早期的发展与状态情况。针对时序多源特征结合神经网络的过拟合问题,提出了新的EW-Dropout算法并嵌入LSTM模型中构成LSTM-EW优化模型,并在多源科学论文数据集上取得了85.55%的准确率和73.87%的召回率,有效地提高了模型的稳定性。将本论文构建的LSTM-EW时序优化模型和XGBoost状态模型融合取得了82.23%的准确率和80.61%的召回率,召回率远高于单个SVM、RF、XGBoost等传统机器学习模型和一些LSTM优化模型,表明了基于时序特征和状态特征的融合模型能够挖掘到更多的重要的科学论文成果。本论文也给重要论文成果的评估提供了一个新的思路,减轻了专家评估科学成果工作量,有效地利用了科学论文的互联网社交信息,结果也更加的客观、高效、准确。
【学位单位】:电子科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP311.13;G354
【部分图文】:

示意图,模型,示意图,欧氏距离


图 2-1 CBoW 模型和 Skip-Gram 模型示意图[35]优化。.1.3 文本的相似性度量对于文本信息处理任务来说,度量词语语义之间的相似程度,对比句子与之间的相关性也都是很常见的问题,人们经常使用的方法有将文本信息转成,再用数学方法计算相似度,也可以直接看文档中共同出现的词语、短语信频率。假设两份文档的转化后的语言向量分别是 d1= w1w2w3wn和 d2w′1w′2w′3w′n,其中 n 是向量的维度,一般选择 200-300 维。于是两份文本相似度的计算方法常用的有欧氏距离、余弦相似度等。(1)欧氏距离欧氏距离是最常用的刻画距离的方法,主要是描述空间中两点之间的距于上述的两份文本之间相似度的计算,如公式2-4:

展开图,展开图


图 2-2 RNN 结构展开图[41]入的出现是有先后顺序的序列,并不是单独的和之前的信息有关。对于模块中的A,它的输出既要输出给下个模块,也要输出给下一个 A 作为输入。每个模块 的输入就是两部分,分别是上一个模块的 A 的输出,还有此前所有的时间序列的输入信息在 A 模块之前的所有的输出。这样构建的循环结构的 RNN 模型,建立了与时间先后顺序相关的解决方法,这样的模型预测的结果就不仅和当前的信息有关,也同时和之前的输入和输出信息有关。

展开图,展开图


图 2-2 RNN 结构展开图[41]入的出现是有先后顺序的序列,并不是单独的和之前的信息有关。对于模块中的A,它的输出既要输出给下个模块,也要输出给下一个 A 作为输入。每个模块 的输入就是两部分,分别是上一个模块的 A 的输出,还有此前所有的时间序列的输入信息在 A 模块之前的所有的输出。这样构建的循环结构的 RNN 模型,建立了与时间先后顺序相关的解决方法,这样的模型预测的结果就不仅和当前的信息有关,也同时和之前的输入和输出信息有关。

【相似文献】

相关期刊论文 前10条

1 刘春年;张凌宇;;能力坡道模型视角下期刊论文数据生命周期管护分析[J];现代情报;2016年09期

2 本刊编辑部;;论文数据的正确书写[J];宁夏医科大学学报;2009年02期

3 本刊编辑部;;论文数据的正确书写[J];宁夏医学院学报;2008年01期

4 付培蓉;医学论文数据的核算与修约[J];编辑学报;2003年06期

5 高振昕;;唯“SCI”论可以休矣![J];耐火材料;2018年06期

6 李旭彦;杨晓秋;宋英华;;论文数据分析在国家重点实验室学术评价中的应用探讨[J];科技进步与对策;2016年11期

7 ;《天津商务职业学院学报》来稿要求[J];天津商务职业学院学报;2019年01期

8 ;《天津商务职业学院学报》来稿要求[J];天津商务职业学院学报;2018年03期

9 宋先锋;;来自论文数据变化的自信[J];创新科技;2012年02期

10 ;论文数据的正确书写[J];宁夏医学院学报;2008年05期

相关会议论文 前2条

1 罗晓琪;刘丹;张彤;;基于《机械工程学报》论文数据探析机械工程学科发展动态与特点[A];第16届中国科技期刊青年编辑学术研讨会论文集[C];2016年

2 周在峰;周秋菊;;超越:系统性创新再造产业未来竞争力[A];2016中国造纸产业竞争力报告[C];2016年

相关重要报纸文章 前10条

1 本报首席记者 许琦敏 记者 金婉霞;论文数据“臃肿”虚假繁荣,伤害的是科学的本源[N];文汇报;2019年

2 本报记者 李大庆;“SCI本身不是问题,问题出在我们的滥用”[N];科技日报;2009年

3 江苏 王志军;用Excel快速汇总论文数据[N];电脑报;2005年

4 记者 马璇;深大自然指数全球排名再创新高[N];深圳特区报;2019年

5 高亚洲;对学术失信要零容忍[N];吉林日报;2018年

6 记者 蒋建科;中国在11个热点前沿表现力居首[N];人民日报海外版;2019年

7 记者 贾西平;我国际科技论文数跻身世界八强[N];人民日报;2000年

8 记者 李星婷;22个学科进入世界ESI排名前1%[N];重庆日报;2018年

9 记者方彤 李天舒 特约记者倪黎冬;国内论文数临床医学排名第一[N];健康报;2009年

10 东航国际金融公司 陈东海;从根源上避免扩张与紧缩反复折腾[N];证券时报;2013年

相关硕士学位论文 前1条

1 王聪;基于论文数据的重要科学成果挖掘[D];电子科技大学;2019年



本文编号:2833948

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2833948.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dd2ce***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com