针对学术文献的句子级知识抽取研究
发布时间:2020-06-11 08:08
【摘要】:本研究主要针对学术文献,通过相似性判定识别文章的新句子,对文章的新句子进行句子内部结构及主题语义分析,从而确定句子的主题及语义;然后通过句子之间的关联关系分析和文章的篇章结构分析确定句子的知识元隶属,并对知识的属性进行标记,如定义、概念属性、研究方法、实验数据、研究结果、研究结论等。基于句子匹配分析的知识抽取研究不但可以解决参考文献自动标注问题,并用新句子形成文献自动综述,而且把文献处理的颗粒度从篇章层次细分到句段层次,实现在知识单元层面上的组织、管理和利用,从而改变传统的知识组织和管理方式。本文主要从基础理论、研究方法、技术实现、实验分析等四个层面对句子级知识抽取研究进行探讨,并展示了一个句子级知识抽取系统框架,在此基础上实现各种具体的抽取务。以《情报学报》2012年全文为实验对象,对方法类知识进行抽取实验,对抽取的方法类句子进行知识属性的标记,包括方法的定义、方法的特点、方法的类属、方法的功能、方法的创新层次等。本文的创新或价值体现在以下几个方面:(1)对句子级知识抽取的系统架构、处理流程、研究方法进行了系统研究,并选取小规模数据进行实验,实验结果表明,本文所采用的多阶规则的方法是行之有效的。(2)本文采用顺排档规则与倒排档规则两套规则来提高知识属性判定的准确性,对方法的定义、方法的过程、方法的类属、方法的特点、方法的功能等知识属性进行标记。
【图文】:
究的独特性,通过理论基础研究论证本研究的科学性,通过方法研究论证本研究的可行性,逡逑通过技术研究论证本研究的有效性,通过实验研究论证本研究的实用性。其研究逻辑结构如逡逑图1-4所示。逡逑实验研究邋|逦研究的实用性j逡逑系统结构与技7^=1^研究的有效性j逡逑研究的方法论逦—X研究的可行性j逡逑研究的基础理论[—研究的科学性j逡逑相关研究的述评一 ̄研究的独特性j逡逑研究范畴与意义—研究的学术性逡逑图1-4本文的研究逻辑图逡逑1.邋5.邋2本文的章节结构逡逑第1章,引言。介绍了研究背景,相关概念及本文主要研究对象;概述了本文的理论基逡逑础与研究方法。逡逑第2章,相关研究述评。阐述了国内外现有研究现状,述评了相关研究对该领域的贡献,逡逑并指出先前研究存在的缺点及不足,为本文的研究切入做好了铺垫。逡逑第3章,基础理论研究。针对学术文献的句子级知识抽取涉及知识基因理论、意义建构逡逑理论、知识谱系理论以及情报转化理论,论述了这四个相关理论的核心内容,以及对本研究逡逑的理论支撑。逡逑第4章,知识抽取的系统架构与技术。设计了知识抽取的系统结构,包括总体设计思路、逡逑系统架构与软件结构设计。分析了知识抽取的流程,包括文献预处理、文献内容分析、知识逡逑元的抽取、知属性标记等模块。介绍了知识抽取过程中的文献预处理技术
而接下来的1989和1990两年没有文章发表,此后的十年间每年稳定在10篇左右,2002逡逑年出现了快速增长,,从2001年的28篇增长到41篇,2009年也出现了大幅增长,从2008逡逑年的95篇增长到2009年的147篇。从图2-1可以看出,知识抽取的研究主要经历以下三个逡逑阶段:萌芽期(1987?1997),这一阶段零零散散地出现一些文献。快速增长期(1998-2009),逡逑这一阶段,网络信息量激增,搜索引擎开始普遍应用,人们不再满足于关键词检索的需求,逡逑信息泛滥与知识贫乏的矛盾日益突出,于是知识抽取的研究得到了充分的重视。稳定期逡逑(2010 ̄至今):在2009年达到高峰之后,从2010年开始出现了小幅下降,分析下降的原逡逑因可能有以下几条:知识抽取的研究己经取得了突破性进展,研究开始慢慢走向衰落。知识逡逑抽取的研究遇到了技术瓶颈,知识抽取作为知识获取的一种重要方式,并不是用一种方法就逡逑能解决的,需要逐渐积累各种资源,不断扩大领域。知识获取一直是人工智能的瓶颈,这一逡逑点已得到共识,如何让计算机拥有丰富的机器可理解的知识是一件很困难的事情。经过进一逡逑步调研分析可知,知识抽取的研究并未取得突破,所以遇到技术瓶颈的可能性更大。而这个逡逑瓶颈很有可能与自然语言处理有关,特别是句法分析及语义的表示。逡逑
【学位授予单位】:南京大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:G254;TP391.1
本文编号:2707629
【图文】:
究的独特性,通过理论基础研究论证本研究的科学性,通过方法研究论证本研究的可行性,逡逑通过技术研究论证本研究的有效性,通过实验研究论证本研究的实用性。其研究逻辑结构如逡逑图1-4所示。逡逑实验研究邋|逦研究的实用性j逡逑系统结构与技7^=1^研究的有效性j逡逑研究的方法论逦—X研究的可行性j逡逑研究的基础理论[—研究的科学性j逡逑相关研究的述评一 ̄研究的独特性j逡逑研究范畴与意义—研究的学术性逡逑图1-4本文的研究逻辑图逡逑1.邋5.邋2本文的章节结构逡逑第1章,引言。介绍了研究背景,相关概念及本文主要研究对象;概述了本文的理论基逡逑础与研究方法。逡逑第2章,相关研究述评。阐述了国内外现有研究现状,述评了相关研究对该领域的贡献,逡逑并指出先前研究存在的缺点及不足,为本文的研究切入做好了铺垫。逡逑第3章,基础理论研究。针对学术文献的句子级知识抽取涉及知识基因理论、意义建构逡逑理论、知识谱系理论以及情报转化理论,论述了这四个相关理论的核心内容,以及对本研究逡逑的理论支撑。逡逑第4章,知识抽取的系统架构与技术。设计了知识抽取的系统结构,包括总体设计思路、逡逑系统架构与软件结构设计。分析了知识抽取的流程,包括文献预处理、文献内容分析、知识逡逑元的抽取、知属性标记等模块。介绍了知识抽取过程中的文献预处理技术
而接下来的1989和1990两年没有文章发表,此后的十年间每年稳定在10篇左右,2002逡逑年出现了快速增长,,从2001年的28篇增长到41篇,2009年也出现了大幅增长,从2008逡逑年的95篇增长到2009年的147篇。从图2-1可以看出,知识抽取的研究主要经历以下三个逡逑阶段:萌芽期(1987?1997),这一阶段零零散散地出现一些文献。快速增长期(1998-2009),逡逑这一阶段,网络信息量激增,搜索引擎开始普遍应用,人们不再满足于关键词检索的需求,逡逑信息泛滥与知识贫乏的矛盾日益突出,于是知识抽取的研究得到了充分的重视。稳定期逡逑(2010 ̄至今):在2009年达到高峰之后,从2010年开始出现了小幅下降,分析下降的原逡逑因可能有以下几条:知识抽取的研究己经取得了突破性进展,研究开始慢慢走向衰落。知识逡逑抽取的研究遇到了技术瓶颈,知识抽取作为知识获取的一种重要方式,并不是用一种方法就逡逑能解决的,需要逐渐积累各种资源,不断扩大领域。知识获取一直是人工智能的瓶颈,这一逡逑点已得到共识,如何让计算机拥有丰富的机器可理解的知识是一件很困难的事情。经过进一逡逑步调研分析可知,知识抽取的研究并未取得突破,所以遇到技术瓶颈的可能性更大。而这个逡逑瓶颈很有可能与自然语言处理有关,特别是句法分析及语义的表示。逡逑
【学位授予单位】:南京大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:G254;TP391.1
【参考文献】
相关期刊论文 前10条
1 化柏林;;网络海量信息环境下的情报方法体系研究[J];情报理论与实践;2012年11期
2 曾丹;;基于意义建构信息利用偏差弥合的释义[J];武汉理工大学学报(社会科学版);2012年04期
3 化柏林;郑彦宁;;情报转化理论(上)——从数据到信息的转化[J];情报理论与实践;2012年03期
4 化柏林;武夷山;;情报方法面面观[J];情报学报;2012年03期
5 化柏林;刘一宁;郑彦宁;;针对学术定义的抽取规则构建方法研究[J];情报理论与实践;2011年12期
6 郑彦宁;化柏林;;句子级知识抽取在情报学中的应用分析[J];情报理论与实践;2011年12期
7 刘鹏博;车海燕;陈伟;;知识抽取技术综述[J];计算机应用研究;2010年09期
8 李秀喜;熊海霞;杨国军;;基于基因表达式编程的化工过程故障诊断知识抽取[J];化工学报;2010年02期
9 化柏林;张新民;;从知识抽取相关概念辨析看知识抽取的特点和发展趋势[J];情报科学;2010年02期
10 化柏林;;情报学三动论探析:序化论、转化论与融合论[J];情报理论与实践;2009年11期
本文编号:2707629
本文链接:https://www.wllwen.com/tushudanganlunwen/2707629.html
教材专著