条件型半结构化文本内容理解算法研究及应用

发布时间:2021-09-06 19:05
  互联网中存在着许多不同类型的政府政策信息,其中有部分政策包含了各类型的申请项目供企业或个人申请。但是,由于政策文件数量的逐渐增多,通过人工寻找合适的申请项目变得低效且困难。对这类型文本进行自动化的信息提取并且构建相应的知识库,能使个人或企业更准确高效地找到合适的申请项目。目前虽然信息提取技术在许多领域中已获得较好的应用成果,但是在这类条件型文本中,信息提取的研究以及应用较为罕见,尚未成熟。因此,对该文本类型进行的研究是非常有价值的。本文提出的内容理解算法指的是:在条件型文本中抽取有价值的信息并将它们存储在图形数据库中作为推荐系统、问答系统等的决策依据。本文的研究主要在文本的建模及文本内容的信息提取中,体现在以下三个方面:(1)条件型文本有向无环图模型:本文结合条件型文本结构特点提出了条件型文本有向无环图模型。基于该模型,可存储条件型的文本内容以及表示条件型文本中项目与条件间、条件与条件间的关系语义。(2)条件项实体识别的研究:条件项的实体识别,是对条件关系进行抽取的基础。政策文本领域中存在着大量的实体,且存在着许多领域特有的实体,这些实体可分为四类:地名、机构、专有名词以及数字类。本文... 

【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

条件型半结构化文本内容理解算法研究及应用


,实夔雏古果羹灌绍图

折线图,人民日报,语料,折线图


?华南理工大学a:程硕士学位论文???通过与主流的深度学习+CRF的方法进行实验对比。分别采用2014年人民日报的标注语??料以及本翬爬虫获取的政策领域的标注语料进行实验对比。以下是实验结果:??表3-8人民日报语料的实验数据??方法?|准确率?|召—醉?|F1值?? ̄CRF?93.?2%?91.?5%?92.?3%??Bi-LSTM+CRF?95.1%?93.6%?94.3%??LSTM+CRF?93.9%?93.2%?93.?5%??

折线图,语料,政策,折线图


结合本文特征与CRF的方法的准确率、召M率以及F1値三项实验评价指标皆??于深度学习的CRF方法要低9与表现最好的Bi-LSTM+CRF的方法相比,准确率下??.9%、召囱率下降2.1%、F1值下降2.0%。??图3-7及表3-9中的实验数据表明,在基于本文爬虫获取的政策领域的语料集进??验的情况下,结合本文特征与CRF的方法的准确率、召西率以及F1值三项实验评??

【参考文献】:
期刊论文
[1]知识图谱研究进展[J]. 漆桂林,高桓,吴天星.  情报工程. 2017(01)
[2]基于依存分析的开放式中文实体关系抽取方法[J]. 李明耀,杨静.  计算机工程. 2016(06)
[3]信息抽取技术综述[J]. 闫俊英.  福建电脑. 2013(05)
[4]半结构化病历文档信息抽取应用[J]. 苏韶生,余元龙,程敏婷,张淑娟,缪一雄,林玉卿,邹雨珊.  中国数字医学. 2012 (09)
[5]基于HMM的中文旅游景点的识别[J]. 薛征山,郭剑毅,余正涛,张志坤,姚贤明.  昆明理工大学学报(理工版). 2009(06)
[6]《知网》在命名实体识别中的应用研究[J]. 郑逢强,林磊,刘秉权,孙承杰.  中文信息学报. 2008(05)
[7]信息抽取技术的发展现状及构建方法的研究[J]. 刘迁,焦慧,贾惠波.  计算机应用研究. 2007(07)
[8]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才.  通信学报. 2006(02)
[9]基于层叠隐马模型的汉语词法分析[J]. 刘群,张华平,俞鸿魁,程学旗.  计算机研究与发展. 2004(08)
[10]中文金融新闻中公司名的识别[J]. 王宁,葛瑞芳,苑春法,黄锦辉,李文捷.  中文信息学报. 2002(02)

硕士论文
[1]基于半结构化文本信息抽取的简历识别系统[D]. 陈川波.北京邮电大学 2008



本文编号:3388009

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3388009.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户42c6a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com