网络视域下领域重要关键词提取方法的比较研究
发布时间:2022-01-19 12:04
[目的/意义]科学高效的领域关键词筛选和提取方法,对于识别和分析领域知识的研究前沿与热点具有极大的帮助。[方法/过程]文章基于关键词同现网络,从个体统计信息、知识关联广度、关联关系质量、全网结构特征四个维度,对关键词提取方法进行比较研究。[结果/结论]研究结果表明,基于词频的关键词提取方法对网络鲁棒性的影响最大,适用于识别领域研究热点;基于度值的方法强调局部特征,适用于无权网络中识别领域核心知识;基于关系频次的方法重视关联关系的质量,适用于探索知识关联性的相关研究;基于特征分解的方法既考虑了网络全局的结构特征又兼顾了边的权重,具有综合的适用性。
【文章来源】:情报资料工作. 2020,41(03)北大核心CSSCI
【文章页数】:8 页
【部分图文】:
原始关键词网络相关指标分布
图2(a)为词频(F)与度值(D)的测量维度对比。结果显示,词频维度与度值维度具有较大的线性相关性,高频词往往对应着高度值。图2(a)中高密度数据集中在低频词与低度值区域,从另一个侧面验证了图1中词频与度值的幂律分布。图2(b)与图2(c)分别为关系频次(R)与词频(F)、关系频次(R)与度值(D)的测算维度对比,但二者表现出的相关性都要弱于词频与度值的相关程度。前文词频(F)、度值(D)、关系频次(R)都表现出近似的幂律分布(参见图1),使得高密度数据同样集中在低关系频次与低词频和低度值区域。图2(d)与图2(e)分别为特征分解(E)法中的边权重与词频(F)和度值(D)的测量维度对比。图中的分析结果表明,高密度数据区域分别集中在高权重和中等权重与低词频和低度值交汇的区域,但是在边权重维度上并不连续。较高的边权重不但能够提取到高词频和高度值的关键词,还可以提取到部分低词频和低度值的关键词。图2(f)为关系频次(R)与特征分解(E)法中的边权重的测算维度对比。显然,二者之间表现出一种近似对数曲线的相关性,即随着关系频次的增加边权重迅速增长,随后尽管关系频次继续增加但是边权重不再增长。这意味着低关系频次对应着不同的较低和中等边权重,高边权重则包含中等和较高的关系频次。通过上述分析可以初步得出,尽管四种方法的测量维度各自不同,但是基于词频的关键词提取方法与基于度值的关键词提取方法具有一定的相似性,流行的关键词(高词频)在很大程度上也是关联广泛的关键词(高度值)。基于关系频次的关键词提取方法虽然强调关系质量,但是对流行程度(词频)与关联广度(度值)也有一定的兼顾。而基于特征分解的关键词提取方法则相对复杂,同时关注网络全局结构特征和关系质量,高边权重在提取高词频、高度值、高关系频次的关键词的同时,也能够提取部分低词频、低度值或者中等关系频次且在网络中承担重要结构的关键词。研究工作基于研究数据,对四种方法提取的重要关键词成员展开进一步分析。
从上述分析可以发现,不同的关键词提取方法在测算维度方面既有相关性也存在差异性。研究工作将按照四种方法分别提取的前1%的关键词作为分析对象,对基于词频得到的重要关键词集合KF、基于度值提取的重要关键词集合KD、基于关系频次提取的重要关键词集合KR、基于特征分解法提取的重要关键词集合KE的成员进行分析。将四个重要关键词集合两两取交集,对比各个集合之间的成员交叉包含关系,结果如图3所示。图3将四种方法基于相同原始关键词网络各自提取的排名前1%的重要关键词集合成员进行交叉统计。由于原始关键词基数相同,因此四种方法提取的前1%重要关键词集合所包含的关键词数量相同(51个重要关键词)。深灰色交叠部分的数字代表四个集合交集,中灰色交叠部分的数字代表三个集合的交集(不包含四个集合的交集),浅灰色交叠部分代表两个集合的交集(不包含三个集合的交集)。从图中可以看出,KF∩KD∩KR∩KE=21(图中深灰色部分),表明四种方法提取的领域重要关键词有41.2%(21/51)的相同部分。此外,KF∩KE=29(0+3+21+5),KF∩KR=24(0+3+21+0),KF∩KD=46(0+21+5+20),KE∩KR=46(3+22+21+0),KE∩KD=26(21+0+0+5),KR∩KD=21(0+0+21+0)。两两相交的结果表明,四种方法中,基于词频提取的重要关键词集合KF与基于度值提取的重要关键词集合KD,在成员构成上具有较大的相似性。同理,基于关系频次提取的重要关键词集合KR与基于特征分解提取的重要关键词集合KE,在成员构成上具有较大的相似性。
【参考文献】:
期刊论文
[1]基于特征分解的知识网络结构关系提取[J]. 栾宇,滕广青,安宁,韩尚轩. 图书情报工作. 2019(07)
[2]我国信息行为研究现状与趋势分析[J]. 王知津,吴东颖. 情报资料工作. 2018(06)
[3]基于频度演化的领域知识关联关系涌现[J]. 滕广青. 中国图书馆学报. 2018(03)
[4]网络中心性视角下的领域知识聚类研究[J]. 安宁,滕广青,白淑春,韩尚轩. 情报理论与实践. 2018(08)
[5]基于网络Hub的领域核心知识涌现研究[J]. 安宁,滕广青,白淑春,辛海. 图书情报工作. 2017(18)
[6]基于无标度与分形理论的层次知识网络原理解析[J]. 滕广青,白淑春,韩尚轩,毕强. 图书情报工作. 2017(14)
[7]国际“专利信息”研究热点——基于知识图谱的词频分析[J]. 高劲松,刘延芳. 情报杂志. 2010(08)
[8]社会网络分析在关键词网络分析中的实证研究[J]. 魏瑞斌. 情报杂志. 2009(09)
[9]基于共词分析的数字图书馆领域研究主题及进展分析[J]. 苏娜. 情报杂志. 2009(06)
[10]国内外知识管理研究热点——基于词频的统计分析[J]. 马费成,张勤. 情报学报. 2006 (02)
本文编号:3596818
【文章来源】:情报资料工作. 2020,41(03)北大核心CSSCI
【文章页数】:8 页
【部分图文】:
原始关键词网络相关指标分布
图2(a)为词频(F)与度值(D)的测量维度对比。结果显示,词频维度与度值维度具有较大的线性相关性,高频词往往对应着高度值。图2(a)中高密度数据集中在低频词与低度值区域,从另一个侧面验证了图1中词频与度值的幂律分布。图2(b)与图2(c)分别为关系频次(R)与词频(F)、关系频次(R)与度值(D)的测算维度对比,但二者表现出的相关性都要弱于词频与度值的相关程度。前文词频(F)、度值(D)、关系频次(R)都表现出近似的幂律分布(参见图1),使得高密度数据同样集中在低关系频次与低词频和低度值区域。图2(d)与图2(e)分别为特征分解(E)法中的边权重与词频(F)和度值(D)的测量维度对比。图中的分析结果表明,高密度数据区域分别集中在高权重和中等权重与低词频和低度值交汇的区域,但是在边权重维度上并不连续。较高的边权重不但能够提取到高词频和高度值的关键词,还可以提取到部分低词频和低度值的关键词。图2(f)为关系频次(R)与特征分解(E)法中的边权重的测算维度对比。显然,二者之间表现出一种近似对数曲线的相关性,即随着关系频次的增加边权重迅速增长,随后尽管关系频次继续增加但是边权重不再增长。这意味着低关系频次对应着不同的较低和中等边权重,高边权重则包含中等和较高的关系频次。通过上述分析可以初步得出,尽管四种方法的测量维度各自不同,但是基于词频的关键词提取方法与基于度值的关键词提取方法具有一定的相似性,流行的关键词(高词频)在很大程度上也是关联广泛的关键词(高度值)。基于关系频次的关键词提取方法虽然强调关系质量,但是对流行程度(词频)与关联广度(度值)也有一定的兼顾。而基于特征分解的关键词提取方法则相对复杂,同时关注网络全局结构特征和关系质量,高边权重在提取高词频、高度值、高关系频次的关键词的同时,也能够提取部分低词频、低度值或者中等关系频次且在网络中承担重要结构的关键词。研究工作基于研究数据,对四种方法提取的重要关键词成员展开进一步分析。
从上述分析可以发现,不同的关键词提取方法在测算维度方面既有相关性也存在差异性。研究工作将按照四种方法分别提取的前1%的关键词作为分析对象,对基于词频得到的重要关键词集合KF、基于度值提取的重要关键词集合KD、基于关系频次提取的重要关键词集合KR、基于特征分解法提取的重要关键词集合KE的成员进行分析。将四个重要关键词集合两两取交集,对比各个集合之间的成员交叉包含关系,结果如图3所示。图3将四种方法基于相同原始关键词网络各自提取的排名前1%的重要关键词集合成员进行交叉统计。由于原始关键词基数相同,因此四种方法提取的前1%重要关键词集合所包含的关键词数量相同(51个重要关键词)。深灰色交叠部分的数字代表四个集合交集,中灰色交叠部分的数字代表三个集合的交集(不包含四个集合的交集),浅灰色交叠部分代表两个集合的交集(不包含三个集合的交集)。从图中可以看出,KF∩KD∩KR∩KE=21(图中深灰色部分),表明四种方法提取的领域重要关键词有41.2%(21/51)的相同部分。此外,KF∩KE=29(0+3+21+5),KF∩KR=24(0+3+21+0),KF∩KD=46(0+21+5+20),KE∩KR=46(3+22+21+0),KE∩KD=26(21+0+0+5),KR∩KD=21(0+0+21+0)。两两相交的结果表明,四种方法中,基于词频提取的重要关键词集合KF与基于度值提取的重要关键词集合KD,在成员构成上具有较大的相似性。同理,基于关系频次提取的重要关键词集合KR与基于特征分解提取的重要关键词集合KE,在成员构成上具有较大的相似性。
【参考文献】:
期刊论文
[1]基于特征分解的知识网络结构关系提取[J]. 栾宇,滕广青,安宁,韩尚轩. 图书情报工作. 2019(07)
[2]我国信息行为研究现状与趋势分析[J]. 王知津,吴东颖. 情报资料工作. 2018(06)
[3]基于频度演化的领域知识关联关系涌现[J]. 滕广青. 中国图书馆学报. 2018(03)
[4]网络中心性视角下的领域知识聚类研究[J]. 安宁,滕广青,白淑春,韩尚轩. 情报理论与实践. 2018(08)
[5]基于网络Hub的领域核心知识涌现研究[J]. 安宁,滕广青,白淑春,辛海. 图书情报工作. 2017(18)
[6]基于无标度与分形理论的层次知识网络原理解析[J]. 滕广青,白淑春,韩尚轩,毕强. 图书情报工作. 2017(14)
[7]国际“专利信息”研究热点——基于知识图谱的词频分析[J]. 高劲松,刘延芳. 情报杂志. 2010(08)
[8]社会网络分析在关键词网络分析中的实证研究[J]. 魏瑞斌. 情报杂志. 2009(09)
[9]基于共词分析的数字图书馆领域研究主题及进展分析[J]. 苏娜. 情报杂志. 2009(06)
[10]国内外知识管理研究热点——基于词频的统计分析[J]. 马费成,张勤. 情报学报. 2006 (02)
本文编号:3596818
本文链接:https://www.wllwen.com/tushudanganlunwen/3596818.html