基于文献链接信息分析的科技资源风险评估
发布时间:2021-09-25 01:38
文献中的链接将文献与数据、代码、文档、网页等科技资源相关联,资源链接引用的上下文信息反映了科研活动中科研主体与科技资源形成的关系。该文通过对文献中的链接信息进行细粒度分析,提出了一种对其关联的科技资源种类和引用目的进行知识建模的方法,并在大规模文献数据集上进行了实证。同时从国内外科技资源的利用情况出发,对科技资源的重要程度、发展方向、使用风险等进行了深入的探索。该文可为了解国内外前沿技术进展,以及我国科研活动中科技资源风险评估判定提供科学依据,且对于自然语言处理领域中对科技文献文本的分析研究具有重大意义。
【文章来源】:中文信息学报. 2020,34(05)北大核心CSCD
【文章页数】:10 页
【部分图文】:
出现在正文中的行内超链接(in-line hyperlink)资源和出现在脚注中的行外超链接(out-line hyperlink),及对科技资源引用上下文、科技资源种类和科技资源应用意图的举例
我们选取ACL Anthology Reference Corpus(ARC,http://acl-arc.comp.nus.edu.sg/)语料库作为研究数据,其涵盖了包括ACL、EMNLP、NAACL等近20个自然语言处理领域相关会议及学术活动的论文原文。我们从ARC文献语料库中获取到21 411篇论文,分别从文献的正文和脚注中提取了行内超链接和行外超链接作为科技资源的引用,对于每个链接,我们同时提取了链接所在位置的前后5句话作为链接资源的上下文,共计从ACL语料库中获取到18 761条链接资源数据。我们从收集到的18 761条链接资源数据中随机抽取了1 100条进行人工标注,标注由3名自然语言处理领域的研究生完成。鉴于过短的文本句子不足以包含能够判断科技资源种类和引用意图信息,因此我们在标注的数据中过滤掉了长度小于10个单词的句子。每个链接资源结合其上下文,至少被标注1个种类标签和1个以上的引用意图标签。对于标注结果的一致性检验,链接种类和链接引用意图的Fleiss Kappa系数分别为0.79和0.65,考虑到分类的多样性和问题的复杂性,这一结果证明标注人员间达到了相对较高的一致性。最终,我们得到了1 026条人工标注了科技资源种类和引用意图的数据。资源种类、资源引用意图在数据集上的分布见图2。通过图2我们可以看出,对于资源种类,属于方法或工具的资源占比最高(46%),其次是数据(31%),信息服务产品占比最少(23%)。而对于资源的引用意图,大多数的资源在文献工作中被使用(56%),还有相当一部分资源在文献工作中作为相关背景被介绍(25%)。此外,作为新资源首次在文献中被发布的情况也占有一定比例(12%),而引用意图为扩展(5%)和比较(2%)的链接资源引用则相对较少。这样的分布反映了来自ACL语料库的文献对技术的实践和应用有着更高的关注度,大多数文献作者在其研究工作中大量地使用了先前已有的科技资源,并倾向于在已有资源的基础上做进一步的扩展和延伸。
为了对文献中科技资源的种类和引用进行自动识别,我们利用基于神经网络的方法构建了文献链接信息自动化分类模型。近些年来,基于神经网络的模型被广泛应用于自然语言处理中的分类任务,如情感分析[1-2]、关系识别[3]等。基于先前的相关工作[1,3-4],本文利用基于注意力机制的LSTM神经网络,结合字符嵌入表示以同时整合字符级别和单词级别的特征,并借助于位置指示器以融合目标资源链接在上下文中出现的位置信息,分类模型的结构如图3所示。具体方法参见文献[5-6]。通过对数据的观察,我们发现在大多数情况下,链接资源所在的上下文中在引用附近的一些关键的名词或动词时,很有可能隐含了科技资源种类和科技资源引用意图信息。例如,在链接资源出现位置前最近的一个动词为“use”“apply”或“adopt”则很有可能科技资源的引用意图为“使用”。因此,在构建文献链接信息自动化分类模型时,考虑融入单词的位置信息是非常重要的。在本研究中,我们采用了位置指示器来标记目标的链接资源引用位置。举例来说,“...using the Fire Calls data set1, an official incident...”将会被转换成“...using the Fire Calls data set <CITE>, an official incident...”。其中“<CITE>”作为位置指示器,在模型训练和测试的过程中也同样被视作一个独立的单词。
本文编号:3408836
【文章来源】:中文信息学报. 2020,34(05)北大核心CSCD
【文章页数】:10 页
【部分图文】:
出现在正文中的行内超链接(in-line hyperlink)资源和出现在脚注中的行外超链接(out-line hyperlink),及对科技资源引用上下文、科技资源种类和科技资源应用意图的举例
我们选取ACL Anthology Reference Corpus(ARC,http://acl-arc.comp.nus.edu.sg/)语料库作为研究数据,其涵盖了包括ACL、EMNLP、NAACL等近20个自然语言处理领域相关会议及学术活动的论文原文。我们从ARC文献语料库中获取到21 411篇论文,分别从文献的正文和脚注中提取了行内超链接和行外超链接作为科技资源的引用,对于每个链接,我们同时提取了链接所在位置的前后5句话作为链接资源的上下文,共计从ACL语料库中获取到18 761条链接资源数据。我们从收集到的18 761条链接资源数据中随机抽取了1 100条进行人工标注,标注由3名自然语言处理领域的研究生完成。鉴于过短的文本句子不足以包含能够判断科技资源种类和引用意图信息,因此我们在标注的数据中过滤掉了长度小于10个单词的句子。每个链接资源结合其上下文,至少被标注1个种类标签和1个以上的引用意图标签。对于标注结果的一致性检验,链接种类和链接引用意图的Fleiss Kappa系数分别为0.79和0.65,考虑到分类的多样性和问题的复杂性,这一结果证明标注人员间达到了相对较高的一致性。最终,我们得到了1 026条人工标注了科技资源种类和引用意图的数据。资源种类、资源引用意图在数据集上的分布见图2。通过图2我们可以看出,对于资源种类,属于方法或工具的资源占比最高(46%),其次是数据(31%),信息服务产品占比最少(23%)。而对于资源的引用意图,大多数的资源在文献工作中被使用(56%),还有相当一部分资源在文献工作中作为相关背景被介绍(25%)。此外,作为新资源首次在文献中被发布的情况也占有一定比例(12%),而引用意图为扩展(5%)和比较(2%)的链接资源引用则相对较少。这样的分布反映了来自ACL语料库的文献对技术的实践和应用有着更高的关注度,大多数文献作者在其研究工作中大量地使用了先前已有的科技资源,并倾向于在已有资源的基础上做进一步的扩展和延伸。
为了对文献中科技资源的种类和引用进行自动识别,我们利用基于神经网络的方法构建了文献链接信息自动化分类模型。近些年来,基于神经网络的模型被广泛应用于自然语言处理中的分类任务,如情感分析[1-2]、关系识别[3]等。基于先前的相关工作[1,3-4],本文利用基于注意力机制的LSTM神经网络,结合字符嵌入表示以同时整合字符级别和单词级别的特征,并借助于位置指示器以融合目标资源链接在上下文中出现的位置信息,分类模型的结构如图3所示。具体方法参见文献[5-6]。通过对数据的观察,我们发现在大多数情况下,链接资源所在的上下文中在引用附近的一些关键的名词或动词时,很有可能隐含了科技资源种类和科技资源引用意图信息。例如,在链接资源出现位置前最近的一个动词为“use”“apply”或“adopt”则很有可能科技资源的引用意图为“使用”。因此,在构建文献链接信息自动化分类模型时,考虑融入单词的位置信息是非常重要的。在本研究中,我们采用了位置指示器来标记目标的链接资源引用位置。举例来说,“...using the Fire Calls data set1, an official incident...”将会被转换成“...using the Fire Calls data set <CITE>, an official incident...”。其中“<CITE>”作为位置指示器,在模型训练和测试的过程中也同样被视作一个独立的单词。
本文编号:3408836
本文链接:https://www.wllwen.com/tushudanganlunwen/3408836.html