基于基金项目数据的研究前沿主题探测方法
发布时间:2020-02-13 03:02
【摘要】:[目的 /意义]根据基金项目数据的特点,提出基于基金项目数据的研究前沿主题探测方法,以期识别出前瞻价值更高的研究前沿,为研究前沿识别相关研究提供借鉴思路。[方法/过程]首先,基于PLDA模型识别蕴含在基金项目文本中的研究主题;然后基于主题-文档矩阵建立主题和基金项目文档的映射关系,在此基础上,利用主题的资助时间、资助金额和中心性指标进行研究前沿主题探测,从而识别出值得关注的研究前沿主题;最后,利用主题演化可视化分析方法,对研究前沿主题进行演化分析,以预测其发展趋势。[结果 /结论]研究结果表明,该方法可以根据基金项目数据的特点识别出蕴含在其中的研究前沿主题,并且能够分析研究前沿主题的分裂、融合等演化过程。
【图文】:
利用PLDA模型进行主题识别,相较于词频、共词等基于主题词的主题识别方法在揭示词间语义关系上具有一定优势,而且在准确度上不会低于LDA模型,识别效率有所提高。2.2研究前沿识别目前情报学和信息科学领域存在众多和研究前沿相似和相关的概念,比如:研究前沿、科学前沿、科技前沿、新兴趋势、突现领域等等。从图书情报工作领域来讲,研究前沿(ResearchFront)这一概念具体明显的学科属性,即通过图书情报领域相关专业术语来定义研究前沿这一概念,其中,对国内外图情领域产生重大影响的研究前沿概念及其发展情况如图1所示:图1“研究前沿”相关概念的发展时间线半个多世纪以来,研究前沿识别获得了巨大发展,其识别方法主要可以分为基于引文、主题词的方法,具体可以为共被引聚类、引文耦合、词频、共词、社区探测和主题模型(LDA)等方法。近年来,国内外相关学者就研究前沿识别问题提出了众多卓有成效的新方法。2014年,范云满等提出一种融合新兴主题探测指标的主题模型识别方法,利用LDA模型识别论文数据中的主题,然后基于文中构建的新兴主题特征指标对进入成熟阶段的各个时期的主题进行了分析,形成了新兴主题探测表格和探测曲线VDP,在此基础上得到值得关注的新兴主题[6]。2015年,祝娜等提出一种基于LDA的研究前沿识别方法,利用VSM模型进行语义角色标注,构建语义分析指标,对论文数据中的研究问题、方法等内容进行语义标引,根据标引出的关键词语义角色对应的上位词的概率识别出研究前沿主题[7]。2016年,郑彦宁等提出识别研究前沿的两个新指标:研究主题年龄和研究主题关注作者数量指标,具体方法为基于TF-IDF抽取关键词构建共词网络,利用Newman社团结构探测算法进行聚类主题识别,然后利用研究主题?
?项目的项目名称为数据源,通过词频、共词分析方法识别立项主题,,进而揭示研究现状与发展趋势[9]。2013年,秦佳航对2011-2013年国家社会科学基金在图书馆、情报与文献学类立项资助项目的关键词进行了归类与分析,分析研究前沿与发展趋势[10]。2014年,静发冲等利用k-means方法对美国国家科学基金会(NSF)生物科学部的基金项目进行聚类分析,展示了各类主题的项目研究内容以及识别新兴主题[11]。2016年,李广建等以2011-2015年国家社会科学基金项目中的情报学项目作为数据来源,通过人工判读,对图2基于基金项目数据的研究前沿主题探测与演化分析方法流程情报学社会科学基金项目的主题分布、热点分布、研究侧面、研究背景等方面进行分析[12]。2016年,梁伟波以美国国家科学基金会2006-2015年间资助的项目为研究对象,利用CiteSpaceⅢ绘制物流项目研究计划的知识图谱,使用VOSviewer绘制主题词聚类图谱,揭示国外物流研究前沿、热点主题[13]。目前,基于基金项目数据的研究前沿分析,一方面以词频、共词等计量分析和定性分析方法为主,未深入到基金项目文本中;另一方面,基于文本挖掘的方法虽然将基金项目中蕴含的主题识别出来,但缺乏有效的研究前沿主题的判定指标。相较于基于论文数据的研究前沿识别研究,可以发现基于基金项目数据的识别方法、工具较为简单,缺乏科学、准确的研究前沿判别指标,研究人员的主观判断影响较大,研究前沿识别结果不够深入、准确。综上所述,本文以NSF资助的碳纳米管研究领域基金项目数据为研究对象(后文简称NSF基金项目数据),利用PLDA模型识别基金项目文本中的主题,基于主题的资助时间、资助强度(金额)和中心性指标的研究前沿主题探测指标体系,判断研
本文编号:2579003
【图文】:
利用PLDA模型进行主题识别,相较于词频、共词等基于主题词的主题识别方法在揭示词间语义关系上具有一定优势,而且在准确度上不会低于LDA模型,识别效率有所提高。2.2研究前沿识别目前情报学和信息科学领域存在众多和研究前沿相似和相关的概念,比如:研究前沿、科学前沿、科技前沿、新兴趋势、突现领域等等。从图书情报工作领域来讲,研究前沿(ResearchFront)这一概念具体明显的学科属性,即通过图书情报领域相关专业术语来定义研究前沿这一概念,其中,对国内外图情领域产生重大影响的研究前沿概念及其发展情况如图1所示:图1“研究前沿”相关概念的发展时间线半个多世纪以来,研究前沿识别获得了巨大发展,其识别方法主要可以分为基于引文、主题词的方法,具体可以为共被引聚类、引文耦合、词频、共词、社区探测和主题模型(LDA)等方法。近年来,国内外相关学者就研究前沿识别问题提出了众多卓有成效的新方法。2014年,范云满等提出一种融合新兴主题探测指标的主题模型识别方法,利用LDA模型识别论文数据中的主题,然后基于文中构建的新兴主题特征指标对进入成熟阶段的各个时期的主题进行了分析,形成了新兴主题探测表格和探测曲线VDP,在此基础上得到值得关注的新兴主题[6]。2015年,祝娜等提出一种基于LDA的研究前沿识别方法,利用VSM模型进行语义角色标注,构建语义分析指标,对论文数据中的研究问题、方法等内容进行语义标引,根据标引出的关键词语义角色对应的上位词的概率识别出研究前沿主题[7]。2016年,郑彦宁等提出识别研究前沿的两个新指标:研究主题年龄和研究主题关注作者数量指标,具体方法为基于TF-IDF抽取关键词构建共词网络,利用Newman社团结构探测算法进行聚类主题识别,然后利用研究主题?
?项目的项目名称为数据源,通过词频、共词分析方法识别立项主题,,进而揭示研究现状与发展趋势[9]。2013年,秦佳航对2011-2013年国家社会科学基金在图书馆、情报与文献学类立项资助项目的关键词进行了归类与分析,分析研究前沿与发展趋势[10]。2014年,静发冲等利用k-means方法对美国国家科学基金会(NSF)生物科学部的基金项目进行聚类分析,展示了各类主题的项目研究内容以及识别新兴主题[11]。2016年,李广建等以2011-2015年国家社会科学基金项目中的情报学项目作为数据来源,通过人工判读,对图2基于基金项目数据的研究前沿主题探测与演化分析方法流程情报学社会科学基金项目的主题分布、热点分布、研究侧面、研究背景等方面进行分析[12]。2016年,梁伟波以美国国家科学基金会2006-2015年间资助的项目为研究对象,利用CiteSpaceⅢ绘制物流项目研究计划的知识图谱,使用VOSviewer绘制主题词聚类图谱,揭示国外物流研究前沿、热点主题[13]。目前,基于基金项目数据的研究前沿分析,一方面以词频、共词等计量分析和定性分析方法为主,未深入到基金项目文本中;另一方面,基于文本挖掘的方法虽然将基金项目中蕴含的主题识别出来,但缺乏有效的研究前沿主题的判定指标。相较于基于论文数据的研究前沿识别研究,可以发现基于基金项目数据的识别方法、工具较为简单,缺乏科学、准确的研究前沿判别指标,研究人员的主观判断影响较大,研究前沿识别结果不够深入、准确。综上所述,本文以NSF资助的碳纳米管研究领域基金项目数据为研究对象(后文简称NSF基金项目数据),利用PLDA模型识别基金项目文本中的主题,基于主题的资助时间、资助强度(金额)和中心性指标的研究前沿主题探测指标体系,判断研
【相似文献】
相关期刊论文 前1条
1 胡阿沛;张静;张晓宇;;基于专利文献的技术演化分析方法评述[J];现代情报;2013年10期
相关硕士学位论文 前2条
1 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年
2 王甜甜;基于hLDA的图书内部主题层次组织研究[D];华中师范大学;2016年
本文编号:2579003
本文链接:https://www.wllwen.com/tushudanganlunwen/2579003.html
教材专著