学术文本结构功能深度学习识别方法的多学科对比分析
发布时间:2021-07-19 08:40
[目的/意义]学术文本的结构功能识别可视为多类别文本自动分类问题,借助深度学习技术能够获得良好的自动识别性能,然而目前缺少其在不同学科适用性的对比研究。[方法/过程]选择医学、图情、数据、出版、经济5个学科方向5种期刊的6 452篇结构式摘要为基础语料,设计并实现了基于Magpie深度学习组件的学术文本结构功能识别实验,通过对比分析同一分类模型在不同学科领域实验语料上的性能表现及其影响因素,揭示机器学习方法的学科适用性规律。[结果/结论]实验结果显示,学科差异性对于机器学习效果有显著的影响,其中医学领域学术文本的结构功能识别效率明显高于其他学科,常见的学术文本功能结构框架中"方法"和"结果"的机器学习识别效果更佳。
【文章来源】:现代情报. 2019,39(12)CSSCI
【文章页数】:10 页
【部分图文】:
实验语料样例
类别分类问题(Multi-classClassification)。Magpie最初用于实现高等物理领域文献摘要的主题分类标引,后被改进并封装后成为一种实现大规模训练语料基础上的文本分类通用工具。目前,Magpie采用的基础模型参考了先后由KimY[18]和BergerMJ[19]提出的基于CNN的文本分类模型。封装后的Magpie在Word2Vec实现的词向量化基础上,通过SciKitLearn进行数据集的标准化处理,然后利用Keras神经网络API实现深度学习完成分类任务,基本原理如图2所示。图2Magpie深度学习分类原理图为科学全面地评估机器学习方法的适用性,实验根据5种期刊所属的中图分类(见2.1节表2)将样本语料分为5组,下文简称“医学”、“图情”、“数据”、“出版”、“经济”,从学科差别、功能结构、样本规模等多种角度,观察5组数据的分类性能差异,分析机器学习的影响因素及变化规律。具体步骤如下:首先,将实验数据通过分词处理后利用Word2Vec算法构建各独立语句文本的词向量(Word_Vector);然后,在对数据进行标准化处理(Scaler)后调用Mapgie组件开展机器学习;最后,生成相应的机器学习模型(Model.h5),并应用于测试语料的自动分类。部分示例代码如下:magpie=Magpie(keras_model='../magpie_result/20_0.1_li/mod-el.h5',word2vec_model='../magpie_result/20_0.1_li/embeddings',scaler='../magpie_result/20_0.1_li/scaler',labels=['purpose','method','result','limita-tion','application','valuation'])#调用Magpie机器学习模型及
【参考文献】:
期刊论文
[1]多层次融合的学术文本结构功能识别研究[J]. 王佳敏,陆伟,刘家伟,程齐凯. 图书情报工作. 2019(13)
[2]面向循证医学的科技文献摘要结构化表示研究[J]. 杜圣梅,朱礼军,徐硕. 中国科技资源导刊. 2018(06)
[3]面向摘要结构功能划分的模型性能比较研究[J]. 王东波,陆昊翔,周鑫,朱丹浩. 图书情报工作. 2018(12)
[4]英语学术论文摘要语步结构自动识别模型的构建[J]. 王立非,刘霞. 外语电化教学. 2017(02)
[5]学术文本的结构功能识别——基于段落的识别[J]. 黄永,陆伟,程齐凯,桂思思. 情报学报. 2016 (05)
[6]学术文本的结构功能识别——基于章节内容的识别[J]. 黄永,陆伟,程齐凯. 情报学报. 2016 (03)
[7]中外科技期刊英文摘要文体格式的变化及建议[J]. 黄河清,韩健,张鲸惊,韩凤,蒋奎,单爱莲. 中国科技期刊研究. 2015(02)
[8]生物医学期刊应用结构式摘要的现状和建议[J]. 刘雪立,刘国伟,乔汉臣,潘伯荣. 中国科技期刊研究. 1994(02)
本文编号:3290383
【文章来源】:现代情报. 2019,39(12)CSSCI
【文章页数】:10 页
【部分图文】:
实验语料样例
类别分类问题(Multi-classClassification)。Magpie最初用于实现高等物理领域文献摘要的主题分类标引,后被改进并封装后成为一种实现大规模训练语料基础上的文本分类通用工具。目前,Magpie采用的基础模型参考了先后由KimY[18]和BergerMJ[19]提出的基于CNN的文本分类模型。封装后的Magpie在Word2Vec实现的词向量化基础上,通过SciKitLearn进行数据集的标准化处理,然后利用Keras神经网络API实现深度学习完成分类任务,基本原理如图2所示。图2Magpie深度学习分类原理图为科学全面地评估机器学习方法的适用性,实验根据5种期刊所属的中图分类(见2.1节表2)将样本语料分为5组,下文简称“医学”、“图情”、“数据”、“出版”、“经济”,从学科差别、功能结构、样本规模等多种角度,观察5组数据的分类性能差异,分析机器学习的影响因素及变化规律。具体步骤如下:首先,将实验数据通过分词处理后利用Word2Vec算法构建各独立语句文本的词向量(Word_Vector);然后,在对数据进行标准化处理(Scaler)后调用Mapgie组件开展机器学习;最后,生成相应的机器学习模型(Model.h5),并应用于测试语料的自动分类。部分示例代码如下:magpie=Magpie(keras_model='../magpie_result/20_0.1_li/mod-el.h5',word2vec_model='../magpie_result/20_0.1_li/embeddings',scaler='../magpie_result/20_0.1_li/scaler',labels=['purpose','method','result','limita-tion','application','valuation'])#调用Magpie机器学习模型及
【参考文献】:
期刊论文
[1]多层次融合的学术文本结构功能识别研究[J]. 王佳敏,陆伟,刘家伟,程齐凯. 图书情报工作. 2019(13)
[2]面向循证医学的科技文献摘要结构化表示研究[J]. 杜圣梅,朱礼军,徐硕. 中国科技资源导刊. 2018(06)
[3]面向摘要结构功能划分的模型性能比较研究[J]. 王东波,陆昊翔,周鑫,朱丹浩. 图书情报工作. 2018(12)
[4]英语学术论文摘要语步结构自动识别模型的构建[J]. 王立非,刘霞. 外语电化教学. 2017(02)
[5]学术文本的结构功能识别——基于段落的识别[J]. 黄永,陆伟,程齐凯,桂思思. 情报学报. 2016 (05)
[6]学术文本的结构功能识别——基于章节内容的识别[J]. 黄永,陆伟,程齐凯. 情报学报. 2016 (03)
[7]中外科技期刊英文摘要文体格式的变化及建议[J]. 黄河清,韩健,张鲸惊,韩凤,蒋奎,单爱莲. 中国科技期刊研究. 2015(02)
[8]生物医学期刊应用结构式摘要的现状和建议[J]. 刘雪立,刘国伟,乔汉臣,潘伯荣. 中国科技期刊研究. 1994(02)
本文编号:3290383
本文链接:https://www.wllwen.com/jiaoyulunwen/ktjx/3290383.html