面向期刊论文的多粒度语义标注方法研究
发布时间:2017-04-06 12:05
本文关键词:面向期刊论文的多粒度语义标注方法研究,由笔耕文化传播整理发布。
【摘要】:针对目标资源,将其概念类、属性、实例以及其他元数据标注出来的过程称为语义标注。一个典型的语义标注过程是将待标注文档和本体输入标注系统,标注系统从本体得到语义信息,并在目标文档上添加语义信息,最终输出标注后文档。进行语义标注后,文档可由计算机可读的状态升级为其语义信息可被计算机理解的状态。依据语义标注过程中人工参与度高低,可将语义标注方法分为人工语义标注、半自动语义标注和自动语义标注。人工标注和半自动标注虽然标注较为精准,但在当今信息资源爆炸的情况下,已呈现出显著的弊端,标注耗时,效率低下,在大批量的语义标注工作中,无法完全采用人工标注来实现,因此针对自动语义标注的研究受到了越来越多的关注。语义标注是语义网技术的基础,而语义标注自动化技术的滞后已经成为语义网技术进展的障碍。通过对涉及语义网的相关技术的详细介绍,包括语义网基础理论、体系结构、语义网和万维网的区别、本体理论等,本文阐述了语义网和语义标注的研究现状、语义标注同与本体的关系等,着重分析了期刊论文的结构特征,并针对其特点设计了一种语义标注方法,将期刊论文划分为粗、中、细三个粒度层次,提出针对不同粒度层次分别进行语义标注。针对目前自动语义标注存在的问题,本文提出的针对期刊论文的多粒度语义标注包括以下步骤:(1)获取期刊论文各粒度文档数据;(2)从本体中提取用户自定义词典,添加到中文分词系统中;(3)在建立自定义词典的基础上,识别出不同粒度文档中的概念、属性及实例;(4)使用RDF框架对所识别的概念、实例、属性和属性值进行组配,形成RDF三元组;(5)在RDF三元组组配的基础上,形成RDF文档。在对语义标注的效果进行实证及评估方面,本文设计了针对期刊文献的多粒度语义标注实验。在实验中,针对某领域的期刊文献,进行多粒度的数据的获取,概念、属性和实例识别,最终组配RDF三元组,形成RDF文档。结果表明,采用本文所提出的方法,可以针对领域内期刊文献进行良好的语义标注,同时弥补了人工语义标注的低效,也保证了一定的标注准确度。
【关键词】:语义标注 多粒度 期刊论文 RDF 本体
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:G237.5;G254
【目录】:
- 摘要6-7
- Abstract7-11
- 第一章 绪论11-16
- 1.1 课题研究背景与意义11-12
- 1.2 语义网与语义标注技术的国内外研究综述12-14
- 1.2.1 语义web研究现状12-13
- 1.2.2 语义web存在的问题13
- 1.2.3 语义标注研究现状13-14
- 1.2.4 语义标注存在的问题14
- 1.3 本文研究内容与创新点14-15
- 1.4 本文的组织结构15-16
- 第2章 语义网及相关理论技术16-25
- 2.1 语义网基础理论16-20
- 2.1.1 语义网概述16-17
- 2.1.2 语义网体系结构17-18
- 2.1.3 xml语言与资源描述框架(RDF)18-19
- 2.1.4 语义web与传统web区别19-20
- 2.2 本体理论20-23
- 2.2.1 本体概念21
- 2.2.2 本体的结构和描述语言21-23
- 2.2.3 本体的分类23
- 2.3 粒度相关理论23-24
- 2.3.1 粒的概念23
- 2.3.2 粒度的概念23-24
- 2.3.3 三种粒度的比较24
- 2.4 本章小结24-25
- 第3章 语义标注理论及方法分析25-33
- 3.1 语义标注理论25-26
- 3.1.1 语义标注相关概念25-26
- 3.1.2 语义标注技术的结构分析26
- 3.1.3 语义标注的粒度问题26
- 3.2 语义标注方法26-29
- 3.2.1 人工语义标注26-27
- 3.2.2 自动语义标注27-29
- 3.3 语义标注工具及对比29-32
- 3.3.1 语义标注平台和工具30-31
- 3.3.2 语义标注平台的对比分析31-32
- 3.4 本章小结32-33
- 第4章 面向期刊论文的多粒度语义标注方法设计33-42
- 4.1 期刊论文特征分析33-34
- 4.2 面向期刊论文的多粒度语义标注思路34-35
- 4.3 面向期刊论文多粒度语义标注的步骤35-41
- 4.3.1 自定义词典生成36-37
- 4.3.2 多粒度数据的获取37-39
- 4.3.3 概念、属性及实例识别39
- 4.3.4 新实例识别39-40
- 4.3.5 自定义词典更新40
- 4.3.6 RDF文档生成40-41
- 4.4 本章小结41-42
- 第5章 实验与结果分析42-47
- 5.1 数据获取42
- 5.2 自定义词典生成及分词42-43
- 5.3 概念、属性及实例识别43-44
- 5.4 新实例识别及自定义词典更新44-45
- 5.5 RDF文件生成45-46
- 5.6 本章小结46-47
- 第6章 总结与展望47-48
- 6.1 本文总结47
- 6.2 研究展望47-48
- 参考文献48-55
- 致谢55
【参考文献】
中国期刊全文数据库 前3条
1 陈星光;张文通;汪霞;;基于领域本体的自动化语义标注方法的研究[J];科学技术与工程;2009年08期
2 时念云;杨晨;;基于领域本体的语义标注方法研究[J];计算机工程与设计;2007年24期
3 付燕宁;金英;刘磊;郑晓娟;;基于语义的Web服务体系结构[J];计算机技术与发展;2008年03期
本文关键词:面向期刊论文的多粒度语义标注方法研究,由笔耕文化传播整理发布。
,本文编号:288821
本文链接:https://www.wllwen.com/shekelunwen/chubanfaxing/288821.html