当前位置:主页 > 社科论文 > 图书档案论文 >

引文元数据的自动发现和标注方法研究——以外文引文为例

发布时间:2019-01-11 07:52
【摘要】:【目的】在总结当前引文元数据抽取方法的基础上,结合语义学知识和机器学习方法,对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象,通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中,本文方法取得了较高的准确率和召回率,特别是针对引文中含有多种语言和缩写的现象,具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明,此方法在引文元数据的自动发现和标注上具有良好的效果,并能很大程度地提高方法的适用性和容错率。
[Abstract]:[objective] on the basis of summarizing the current extraction methods of citation metadata, combining semantic knowledge and machine learning methods, This paper explores the automatic extraction method of citation metadata. [methods] the neural network model is used to train the word vector of the manually segmented corpus in the experiment. The phenomenon that the same type of metadata appears relatively centrally in a certain position in vector space, The classification algorithm of support vector machine is used to automatically classify and annotate metadata. [results] in the experiment of using foreign citation data as test set, the method obtained high accuracy and recall rate. Especially for the phenomenon that citations contain many languages and abbreviations, they have good processing ability. [limitations] have some limitations in fine-grained extraction of temporal content of citation metadata. [conclusion] the experimental results show that, This method has a good effect on automatic discovery and tagging of citation metadata, and can greatly improve the applicability and fault tolerance of the method.
【作者单位】: 南京大学信息管理学院;江苏省数据工程与知识服务重点实验室;南京农业大学信息科学技术学院;
【分类号】:G254

【参考文献】

相关期刊论文 前3条

1 周练;;Word2vec的工作原理及应用探究[J];科技情报开发与经济;2015年02期

2 蒋新;英美学术文献的几种主要引文方式[J];图书与情报;2003年03期

3 李朝光,张铭,邓志鸿,杨冬青,唐世渭;论文元数据信息的自动抽取[J];计算机工程与应用;2002年21期

【共引文献】

相关期刊论文 前10条

1 张兴厅;文栋;雷健波;;中文消费者健康词的发现方法研究[J];医学信息学杂志;2017年05期

2 汤志康;李春英;汤庸;黄泳航;蔡奕彬;;学术社交平台论文推荐方法[J];计算机与数字工程;2017年02期

3 姚静天;王永利;侍秋艳;董振江;;基于联合物品搭配度的推荐算法框架[J];上海理工大学学报;2017年01期

4 姜霖;王东波;;引文元数据的自动发现和标注方法研究——以外文引文为例[J];数据分析与知识发现;2017年01期

5 曹军;王虎;;外卖用户差评影响因素研究——基于文本评论和Word2vec[J];现代商贸工业;2017年02期

6 冯民;毛善锋;;一种适合大批量期刊元数据自动化提取的程序设计[J];中国科技期刊研究;2016年10期

7 吴笛;李保强;;大数据背景下基于主题模型的学习资源聚合研究[J];电化教育研究;2016年09期

8 潘晓英;胡开开;朱静;;一种基于TextRank的文本二次聚类算法[J];计算机技术与发展;2016年08期

9 宁建飞;刘降珍;;融合Word2vec与TextRank的关键词抽取研究[J];现代图书情报技术;2016年06期

10 李保强;吴笛;;基于知识关联的学习资源混合协同过滤推荐研究[J];电化教育研究;2016年06期

【二级参考文献】

相关期刊论文 前1条

1 黄豫清,戚广志,张福炎;从WEB文档中构造半结构化信息的抽取器[J];软件学报;2000年01期

【相似文献】

相关期刊论文 前10条

1 于海燕,周顺平;空间元数据系统的研究与设计[J];现代计算机(专业版);2002年09期

2 吕秋培,解素芳,李新利,卢晓慧,任凤仙,于慧敏,刘彩霞,陈晓;关于元数据及其应用[J];档案学通讯;2003年03期

3 王继周,李成名,林宗坚;面向共享的空间元数据管理框架研究与设计[J];国土资源遥感;2003年03期

4 李双文;;论元数据的概念、层次和作用[J];云南档案;2009年09期

5 杨茹;张爱文;;黑龙江省交通数字化中元数据创建问题研究[J];黑龙江工程学院学报(自然科学版);2010年03期

6 曹树金,马利霞;描述教育资源的元数据标准[J];大学图书馆学报;2004年02期

7 熊志刚,徐梅林;基于元数据及语意网的学习技术探讨[J];开放教育研究;2004年05期

8 袁平,韩景润,党海飞;空间元数据自动生成技术研究[J];地理信息世界;2005年01期

9 李晓霞;;元数据在空间信息网上发布中的实现方法与应用[J];计算机时代;2006年04期

10 傅海洋;黄俊;刘晓晨;;物流元数据及其管理研究[J];物流科技;2008年10期

相关会议论文 前10条

1 赵培翔;张铭;杨冬青;唐世渭;;数字化文档元数据的自动提取[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

2 陈胜鹏;邱文;;基于元数据的空间地理信息管理系统整合的研究与实现[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年

3 万甜甜;刘强;董海良;;西南资源环境信息元数据研究[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年

4 白云;高国勇;;基于Web的城市地下管线元数据共享机制的研究[A];吉林省测绘学会2008年学术年会论文集(上)[C];2008年

5 殷宁欣;张卫平;张涛;;空间信息系统中的模型方法元数据标准研究[A];吉林省测绘学会2008年学术年会论文集(上)[C];2008年

6 韩先培;赵军;;基于Wikipedia的语义元数据生成[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

7 王蜀安;张铭;王爱华;杨冬青;;构建基于OAI协议的可互操作数字图书馆元数据服务[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

8 廖轶;黄磊;袁芳;;元数据在高校数据中心的应用探索[A];中国高等教育学会教育信息化分会第十二次学术年会论文集[C];2014年

9 徐佳沅;;规划信息数据库的元数据集成管理研究[A];广东省测绘学会第九次会员代表大会暨学术交流会论文集[C];2010年

10 陈X;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

相关博士学位论文 前5条

1 刘海学;基于语义标注的元数据自动构建及其相关技术研究[D];华东师范大学;2010年

2 符海芳;网络地理信息组织和提取的研究及其在农业信息中的应用[D];中南大学;2003年

3 辜寄蓉;基于元数据的综合数据管理与信息共享[D];成都理工大学;2003年

4 徐昊;科技知识对象的语义模式研究[D];吉林大学;2013年

5 王霞;卫生统计调查元数据概念模型的研究[D];第四军医大学;2006年

相关硕士学位论文 前10条

1 安静;基于元数据动态获取的数据质量检查技术[D];中国地质大学(北京);2015年

2 李欣;交通物流信息平台元数据研究与应用[D];长安大学;2015年

3 施伟;高性能分布式文件系统元数据服务设计与实现[D];电子科技大学;2014年

4 吕鹏程;一个分布式文件系统元数据服务器设计与实现[D];电子科技大学;2015年

5 赵卓;禽肉质量安全追溯元数据研究[D];河北科技师范学院;2014年

6 秦超;本体元数据设计、提取及应用[D];南京大学;2014年

7 白雷;云存储中独立元数据的设计与实现[D];西安电子科技大学;2014年

8 袁进俊;DOA下分布式DRC的元数据分级存储模型研究[D];成都理工大学;2015年

9 张雷;DOA下的数据注册中心元数据存储策略研究[D];成都理工大学;2013年

10 王芳;基于XML的网上阅卷系统设计[D];太原理工大学;2016年



本文编号:2406871

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2406871.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户17753***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com