当前位置:主页 > 社科论文 > 图书档案论文 >

基于条件随机场的中文期刊论文信息识别与抽取

发布时间:2020-06-10 02:06
【摘要】:期刊论文作为知识信息的载体和研究人员获取专业知识的一个重要渠道,对促进专业技术的推广、研究成果的传播有极其重要的作用。基于期刊论文全文信息的相关研究有利于提升期刊资源的使用价值以及用户获取信息的效率。目前,已经存在很多论文信息抽取的相关工具,但其在中文期刊论文信息的抽取中效率并不高。所以在此基础上,本文对现有的论文信息抽取工具做了适用性改进,使其更好地应用在中文领域。通过对期刊论文信息抽取方法及工具的对比分析,本文选取条件随机场算法和GROBID工具进行中文期刊论文信息的识别与抽取。主要研究内容与取得成果包括:(1)深入对比分析了期刊论文信息识别与抽取的相关方法和工具,发现条件随机场算法和GROBID工具在论文信息抽取中准确率更高,因此本文采用条件随机场算法和GROBID工具进行中文期刊论文信息的识别与抽取。同时,详细介绍了基于条件随机场的中文期刊论文信息识别与抽取的关键技术。(2)基于条件随机场算法和GROBID工具构建了中文期刊论文信息识别与抽取级联模型,包括segmentation模型、header模型、reference-segmentation模型、citation模型以及fulltext模型。针对中文期刊论文信息的特点,通过文本预处理、特征选择、序列标注和特征模板制定一系列流程完成了对模型的设计与实现。(3)选取12种农业领域中文期刊论文数据对模型进行训练,利用准确率、精准率、召回率以及F1值四个指标对各个模型的效果展开评估,并与GROBID工具的抽取效果进行对比。实验结果显示,中文期刊论文信息抽取模型中segmentation模型、header模型、reference-segmentation模型、citation模型的效果相对GROBID工具显著提升,该模型能够准确、高效的识别和抽取出中文期刊论文头信息和引文信息。
【图文】:

论文结构,表达模型


图 2- 1 JATS 论文结构表达模型Fig 2-1 JATS paper structure expression model2.3 基于机器学习的论文信息抽取方法对比分析机器学习是基于统计学的方法即是通过建立输入数据与输出数据的概率模型,解决一些预测标注问题。论文信息抽取可以看作是一种分类标注问题。在使用机器学习的方法对论文信息进行抽取时,,实现步骤如下:首先根据抽取任务确定选择特征,根据特征生成对应数据文件。其次将标记好的数据文件作为训练数据输入,进行训练,生成相应的抽取模型。最后可以输入未标记的数据文件以及生成的模型文件,得到目标信息即模型标注的结果。基于机器学习的论文信息抽取方法主要包括 HMM、SVM 以及 CRF。表 2-1 为以上三种方法的对比分析。

图结构


中国农业科学院硕士学位论文 第二章 期刊论文信息识别与抽取的相关理论研究本文将会对其相关机器学习技术的背景历史及其相关的优化算法进行介绍。首先介绍隐马尔可模型及其推理算法。其次介绍了多种逻辑回归算法,最后介绍在前面的方法基础上提出了最大马尔可夫模型(Maximum Entropy Markov Model,MEMM)和条件随机场。2.5.1 隐马尔可夫模型隐马尔可夫模型(Hidden Markov Models,HMM)是机器学习领域中比较流行的一种模型HMM 是基于统计学具有丰富数学理论结构的模型,能够在许多的研究中应用。近年来,HM已经成为了许多领域研究例如自然语言处理领域中重要的一种方法。构建 HMM 模型即获得一个长度为 T 的未知隐藏状态序列的概率分布,y =( , ,..., )其元素在有限状态集合 S 中取值,并遵循马尔可夫处理。对于这个隐藏序列中的每个元素,都一个相应的观察元素,形成一系列的观察值 x =( , ,..., ),同样地在有限集 O 中取值。
【学位授予单位】:中国农业科学院
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:G255.2

【相似文献】

相关期刊论文 前10条

1 张开旭;夏云庆;宇航;;基于条件随机场的古文自动断句与标点方法[J];清华大学学报(自然科学版)网络.预览;2009年10期

2 李玲玲;金泰松;李翠华;;基于局部特征和隐条件随机场的场景分类方法[J];北京理工大学学报;2012年07期

3 黄浩;朱杰;;基于隐条件随机场的声调建模及区分性模型权重训练(英文)[J];Transactions of Nanjing University of Aeronautics & Astronautics;2008年01期

4 宋青松;张超;陈禹;王兴莉;杨小军;;组合全卷积神经网络和条件随机场的道路分割[J];清华大学学报(自然科学版);2018年08期

5 蒋黎明;司亚彪;;基于条件随机场的新浪微博情感倾向性研究[J];网络安全技术与应用;2014年10期

6 蔡鑫奇;王瑞;石亮;牟迪;马春宇;;基于条件随机场的软件变更影响分析方法[J];航天控制;2019年01期

7 赵静;谷鹏飞;何亚南;延霞;;基于条件随机场的协议异常检测[J];深圳信息职业技术学院学报;2018年02期

8 戴丹;胡杨;刘骊;冯旭鹏;刘利军;黄青松;;基于层叠条件随机场的微博热点话题跟踪[J];计算机应用与软件;2016年04期

9 潘华山;严馨;周枫;余正涛;郭剑毅;;基于层叠条件随机场的高棉语分词及词性标注方法[J];中文信息学报;2016年04期

10 鹿凯宁;孙琪;刘安安;杨兆选;;基于隐条件随机场的人体行为识别方法[J];天津大学学报(自然科学与工程技术版);2013年10期

相关会议论文 前10条

1 陈雪艳;吕国英;李茹;刘伟;;基于层叠条件随机场的句法语义自动标注研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

2 张朋朋;王善峰;公茂果;张明阳;武越;;基于三维块匹配和全连接条件随机场的SAR图像变化检测[A];第五届高分辨率对地观测学术年会论文集[C];2018年

3 江涛;江静;戴玉刚;李艾林;;藏文舆情云分析系统平台研究[A];第29次全国计算机安全学术交流会论文集[C];2014年

4 彭洪保;李茹;段建勇;;基于汉语框架网的问句语义角色自动标注研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

5 潘华山;严馨;余正涛;郭剑毅;;融合实体特性的柬埔寨语命名实体识别方法[A];第26届中国控制与决策会议论文集[C];2014年

6 刘瑞;飞龙;高光来;张红伟;;基于条件随机场的蒙古语韵律短语预测方法[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年

7 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 尉舒舒;;基于微博对话链的命名实体识别[A];第十一届中国通信学会学术年会论文集[C];2015年

9 张奇;翁富良;黄萱菁;吴立德;;英文口语中非流利区域的检测[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

10 王根;赵军;;基于多重冗余标记CRF的句子情感分析研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

相关博士学位论文 前10条

1 仇文亮;基于条件随机场的视觉显著性目标检测[D];西安电子科技大学;2018年

2 张晓峰;基于条件随机场的目标提取[D];华东师范大学;2012年

3 林颖;基于水平集方法的图像分割关键技术研究[D];哈尔滨工程大学;2010年

4 万怀宇;社会网络中基于链接的分类问题研究[D];北京交通大学;2012年

5 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年

6 王东波;基于英汉双语平行语料库的句法级知识挖掘和抽取研究[D];南京大学;2012年

7 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年

8 梁晔;基于视觉显著性的显著区域提取方法及其应用研究[D];北京交通大学;2018年

9 罗亮;蛋白质结构预测模型研究[D];华中科技大学;2010年

10 刘涛;基于有监督分层狄里克雷过程的对象分割模型[D];北京邮电大学;2016年

相关硕士学位论文 前10条

1 沈豪;互联网评论文本观点挖掘策略研究[D];南京大学;2019年

2 薛欢欢;基于条件随机场的中文期刊论文信息识别与抽取[D];中国农业科学院;2019年

3 金雪梅;基于条件随机场的交通场景理解算法研究[D];东北大学;2015年

4 韦杨柳;基于条件随机场的植物细胞追踪算法研究[D];湖南大学;2018年

5 李楠;基于多视觉目标融合的图像情感分类方法研究[D];北京交通大学;2018年

6 李金龙;结合多种特征和条件随机场的显著性区域分割[D];湖南师范大学;2018年

7 傅科达;面向新闻文本的情感原因抽取算法研究[D];哈尔滨工业大学;2018年

8 邢立栋;面向特定领域的知识图谱构建技术研究与应用[D];北京化工大学;2018年

9 徐晓芳;基于条件随机场的中文分词技术的研究与实现[D];南京邮电大学;2018年

10 韩浩;结合FCN与条件随机场的道路场景分割模型的研究[D];武汉理工大学;2017年



本文编号:2705611

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2705611.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a95bf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com