基于论文摘要和引文文本语料的突破性研究特征词识别
发布时间:2021-09-29 01:27
[目的/意义]基于作者对自身研究的描述性评价和后续研究者的评论性引用视角,利用摘要和引文语料提取突破性研究的特征词,从而了解突破性研究的摘要和引文语料特征以帮助对于突破性研究的识别。[方法/过程]选取Science评选为"Breakthrough of the Year"的关键文献和Nobel Prize获得者的"key publications"作为突破性研究语料数据,整合论文的摘要和引文语料进行特征词提取。特征词提取中,首先利用Stanford CoreNlp工具对语料进行分词及词频统计,并结合专家意见提取特征词元。然后将特征词作为种子词,利用医学文本的语义关系对特征词进行语义拓展。最后通过查全率和查准率进一步对比摘要和引文的特征词拓展前后的检索识别效果。[结果/结论]突破性研究语料中遴选出8个摘要语料的特征词元和8个引文语料的特征词元。特征词检索识别中,摘要和引文的拓展特征词的查全率最高,引文特征词的查准率最高,引文拓展特征词的查全率和查准率综合效果较好。
【文章来源】:图书情报工作. 2020,64(11)北大核心CSSCI
【文章页数】:8 页
【部分图文】:
突破性研究特征词提取方法框架
突破性研究语料特征词选取的重点是选出多篇文献共同提到的特征词,无需考虑反文档频率,因此TF-IDF的方法并不适用于此处的特征词元选取。在筛选特征词元过程中,本文选择传统的词频统计方式,使用Stanford CoreNlp工具对语料进行分词及词频统计[19],提高词频统计的准确性。Stanford CoreNlp工具获取语料词频的步骤为:分词-词形还原-基于句法的词性标注-词频统计,在此基础上过滤标点及属性为CD(纯数,基数)的词,减少标点及数字带来的噪音。图2是以“The sulfur atom is supplied by a separate cluster in the enzyme.”为语料示例展示的词频统计过程:2.3 基于语义的特征词元语义拓展
通过以上方法完成PMC OA Word2vec模型的构建,模型构建的流程图见图3。使用该模型进行词义拓展时,只需某个词输入到模型中,即可输出与这个词义更接近的词。2.4 提取效果评价方法
本文编号:3412931
【文章来源】:图书情报工作. 2020,64(11)北大核心CSSCI
【文章页数】:8 页
【部分图文】:
突破性研究特征词提取方法框架
突破性研究语料特征词选取的重点是选出多篇文献共同提到的特征词,无需考虑反文档频率,因此TF-IDF的方法并不适用于此处的特征词元选取。在筛选特征词元过程中,本文选择传统的词频统计方式,使用Stanford CoreNlp工具对语料进行分词及词频统计[19],提高词频统计的准确性。Stanford CoreNlp工具获取语料词频的步骤为:分词-词形还原-基于句法的词性标注-词频统计,在此基础上过滤标点及属性为CD(纯数,基数)的词,减少标点及数字带来的噪音。图2是以“The sulfur atom is supplied by a separate cluster in the enzyme.”为语料示例展示的词频统计过程:2.3 基于语义的特征词元语义拓展
通过以上方法完成PMC OA Word2vec模型的构建,模型构建的流程图见图3。使用该模型进行词义拓展时,只需某个词输入到模型中,即可输出与这个词义更接近的词。2.4 提取效果评价方法
本文编号:3412931
本文链接:https://www.wllwen.com/tushudanganlunwen/3412931.html