基于引文细粒度情感量化的学术评价研究
发布时间:2020-12-29 07:15
【目的】利用情感分析技术对引用内容中包含的引用情感进行深层次地发掘和量化,为学术文献内在价值的发现提供更加科学的理论依据和数据支撑。【方法】以知网中检索到的期刊论文为例,通过对施引文献中引用内容的细粒度情感分析和量化,对被引文献的内在学术价值进行深度挖掘,并提出基于引用情感量化的学术评价指标。【结果】实验表明,基于引用情感的学术评价方法比传统的基于被引频次的方法,离散系数高0.12,斯皮尔曼相关系数达到0.981。【局限】由于国内没有完整的全引文数据库,造成数据获取困难,实验样本量较小。【结论】基于细粒度引用情感量化的学术评价方法具有较高的区分度,能更加有效地衡量文献的内在学术价值。
【文章来源】:数据分析与知识发现. 2020年06期 北大核心CSSCI
【文章页数】:10 页
【部分图文】:
研究思路示意图
通过编程语言实现后,示例中每个词的极性值如图2所示。利用图传播算法,获取引用内容中每个词的极性和强度,通过阈值的设定去除其中的中性词,可以较为准确地识别出细粒度条件下句中包含的引用情感词及强度。但由于学术评价的复杂性和特殊性,如“训练时间长”“大量人工参与”等语义单元中,单个词并不具有明显的情感倾向,如“训练时间”“长”“大量”“人工参与”,只有变成语义单元组配时,才能体现出在引用情感上的变化,所以本文利用添加外部词表的方式,在分词时将这些特殊的语义组配单元视为一个整体,整体识别出语义单元的情感倾向和强度。
通过细粒度引用情感量化,本文对选取的论文进行综合学术影响力评价值的计算,并将之与单纯依靠被引频次进行学术影响力评估的方法进行比较,将得到的结果按照论文被引频次降序排列,绘制基于被引频次评价和引用情感评价的变化趋势折线图,如图3所示。为进一步比较和分析被引频次和引用情感指标间的差异,利用SPSS统计分析软件对两项指标的计算结果进行斯皮尔曼秩相关分析。秩相关系数,也称为“等级相关系数”,是常用的反映相关程度的统计分析指标[26-27],当两项指标高度相关时,说明引用情感评价指数作为被引频次指标的补充和辅助具有合理性。此外,本文还采用离散系数对指标的显著性进行评估,一般而言,离散系数越高,说明数据变化越显著,数据之间的差异越明显,评价指标的区分度也就越高、越合理。实验得到的斯皮尔曼相关系数与离散系数具体如表6所示。
【参考文献】:
期刊论文
[1]基于引用情感交互的学术检索结果排序方法研究[J]. 姜霖,张麒麟. 情报理论与实践. 2020(06)
[2]基于引文内容的中文图书被引行为研究[J]. 章成志,李卓,赵梦圆,柳嘉昊,周清清. 中国图书馆学报. 2019(03)
[3]基于区间数的Spearman秩相关系数的多属性决策方法[J]. 苏丽敏,何慧爽. 统计与决策. 2019(06)
[4]基于引用情感的论文学术影响力评价方法研究[J]. 耿树青,杨建林. 情报理论与实践. 2018(12)
[5]基于评论情感分析的个性化推荐策略研究——以豆瓣影评为例[J]. 姜霖,张麒麟. 情报理论与实践. 2017(08)
[6]单篇论文学术影响力评价指标构建[J]. 何春建. 图书情报工作. 2017(04)
[7]基于位置的共被引分析实证研究[J]. 赵蓉英,郭凤娇,曾宪琴. 情报学报. 2016 (05)
[8]基于引用内容的论文影响力研究——以诺贝尔奖获得者论文为例[J]. 刘盛博,王博,唐德龙,马翔,丁堃. 图书情报工作. 2015(24)
[9]基于引用内容性质的引文评价研究[J]. 刘盛博,丁堃,张春博. 情报理论与实践. 2015(03)
[10]全文本引文分析——引文分析的新发展[J]. 赵蓉英,曾宪琴,陈必坤. 图书情报工作. 2014(09)
本文编号:2945245
【文章来源】:数据分析与知识发现. 2020年06期 北大核心CSSCI
【文章页数】:10 页
【部分图文】:
研究思路示意图
通过编程语言实现后,示例中每个词的极性值如图2所示。利用图传播算法,获取引用内容中每个词的极性和强度,通过阈值的设定去除其中的中性词,可以较为准确地识别出细粒度条件下句中包含的引用情感词及强度。但由于学术评价的复杂性和特殊性,如“训练时间长”“大量人工参与”等语义单元中,单个词并不具有明显的情感倾向,如“训练时间”“长”“大量”“人工参与”,只有变成语义单元组配时,才能体现出在引用情感上的变化,所以本文利用添加外部词表的方式,在分词时将这些特殊的语义组配单元视为一个整体,整体识别出语义单元的情感倾向和强度。
通过细粒度引用情感量化,本文对选取的论文进行综合学术影响力评价值的计算,并将之与单纯依靠被引频次进行学术影响力评估的方法进行比较,将得到的结果按照论文被引频次降序排列,绘制基于被引频次评价和引用情感评价的变化趋势折线图,如图3所示。为进一步比较和分析被引频次和引用情感指标间的差异,利用SPSS统计分析软件对两项指标的计算结果进行斯皮尔曼秩相关分析。秩相关系数,也称为“等级相关系数”,是常用的反映相关程度的统计分析指标[26-27],当两项指标高度相关时,说明引用情感评价指数作为被引频次指标的补充和辅助具有合理性。此外,本文还采用离散系数对指标的显著性进行评估,一般而言,离散系数越高,说明数据变化越显著,数据之间的差异越明显,评价指标的区分度也就越高、越合理。实验得到的斯皮尔曼相关系数与离散系数具体如表6所示。
【参考文献】:
期刊论文
[1]基于引用情感交互的学术检索结果排序方法研究[J]. 姜霖,张麒麟. 情报理论与实践. 2020(06)
[2]基于引文内容的中文图书被引行为研究[J]. 章成志,李卓,赵梦圆,柳嘉昊,周清清. 中国图书馆学报. 2019(03)
[3]基于区间数的Spearman秩相关系数的多属性决策方法[J]. 苏丽敏,何慧爽. 统计与决策. 2019(06)
[4]基于引用情感的论文学术影响力评价方法研究[J]. 耿树青,杨建林. 情报理论与实践. 2018(12)
[5]基于评论情感分析的个性化推荐策略研究——以豆瓣影评为例[J]. 姜霖,张麒麟. 情报理论与实践. 2017(08)
[6]单篇论文学术影响力评价指标构建[J]. 何春建. 图书情报工作. 2017(04)
[7]基于位置的共被引分析实证研究[J]. 赵蓉英,郭凤娇,曾宪琴. 情报学报. 2016 (05)
[8]基于引用内容的论文影响力研究——以诺贝尔奖获得者论文为例[J]. 刘盛博,王博,唐德龙,马翔,丁堃. 图书情报工作. 2015(24)
[9]基于引用内容性质的引文评价研究[J]. 刘盛博,丁堃,张春博. 情报理论与实践. 2015(03)
[10]全文本引文分析——引文分析的新发展[J]. 赵蓉英,曾宪琴,陈必坤. 图书情报工作. 2014(09)
本文编号:2945245
本文链接:https://www.wllwen.com/tushudanganlunwen/2945245.html