科技论文转换为NLM XML格式的设计与实现
发布时间:2017-07-17 01:02
本文关键词:科技论文转换为NLM XML格式的设计与实现
更多相关文章: 科技论文 信息抽取 XML NLM DTD PubMed Central
【摘要】:随着现代信息技术的迅速发展及广泛应用,期刊出版工作发生了重大变化,由传统纸质期刊占主导地位变为电子期刊和纸质期刊优势互补、缺一不可。电子期刊有非结构化及结构化之分,非结构化电子期刊大多以PDF、HTML及Word等文档格式进行存储,而结构化电子期刊通常以XML文档格式保存。结构化期刊在对文档的语义信息及其内部结构的描述上明显优于非结构化期刊。为此,把非结构化文档转换成结构化文档成为了一个迫切的问题。这正是本文基于XML的信息抽取技术的研究背景。本文最主要工作是构建一个基于NLM DTD的PDF信息抽取系统。NLM DTD是由美国国立医学图书馆(NLM)下的国立生物技术信息中心(NCBI)开发的一套更具有普遍性及通用性的学术文献XML描述规范。NLM DTD包含3个规范:文献存档标签集(Archiving Tag Set)、Journal Publishing Tag Set(期刊出版标签集)和NCBI Book Tag Set(图书标签集),其中期刊出版标签集为全球科技期刊提供了一种通用的期刊数据交换的文档格式,可以让出版商和数据库进行期刊内容的存储和交换。目前该标准已成为美国的国家标准,且已成为科技期刊界的行业标准。本系统的特点在于选择XML作为信息表现模型,以及正则表达式作为抽取规则。系统的核心是先将PDF源文档转换为一种中间XML文档,再利用文本特征、位置特征及显示特征对中间XML文档进行基于正则表达式的信息抽取。本系统把科技论文的PDF文档解析转换为符合NLM DTD要求的XML文档,从而实现科技论文格式标注向语义标注的转换。
【关键词】:科技论文 信息抽取 XML NLM DTD PubMed Central
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 绪论10-13
- 1.1 选题背景10
- 1.2 出版期刊的现状分析10-12
- 1.3 系统实现方案选择12
- 1.4 业务流程12
- 1.5 研究意义12
- 1.6 主要工作12-13
- 第二章 基础理论及相关技术13-24
- 2.1 HTML简介与特征13
- 2.1.1 HTML简介13
- 2.1.2 HTML特点与好处13
- 2.2 XML定义与特征13-17
- 2.2.1 XML定义13
- 2.2.2 XML优点13-14
- 2.2.3 XML应用场合14-16
- 2.2.4 XML的基本语法16-17
- 2.3 NLM DTD规范17-23
- 2.3.1 DTD定义与特征17-21
- 2.3.2 NLM DTD规范21-22
- 2.3.3 DTD的替代品XSD22-23
- 2.4 正则表达式23-24
- 第三章 Journal Publishing Tag Set的结构解析24-32
- 3.1 Journal Publishing Tag Set的主要定义24
- 3.2 Journal Publishing Tag Set的层次结构24-32
- 3.2.1 Front结构25-26
- 3.2.2 Body与Section结构26-27
- 3.2.3 Back结构27-29
- 3.2.4 Floats-group结构29
- 3.2.5 Sub-article与Response结构29-30
- 3.2.6 Block结构30-32
- 第四章 系统设计32-54
- 4.1 设计意义32-33
- 4.2 设计目标33
- 4.3 功能模组设计33-37
- 4.3.1 论文信息维护模块33-35
- 4.3.2 信息分析抽取模块35
- 4.3.3 NLM DTD模型模块35-36
- 4.3.4 XML文档验证模块36
- 4.3.5 模块间运作流程及关系36-37
- 4.4 角色与用例分析37-49
- 4.4.1 角色与主用例37-42
- 4.4.2 编辑论文子用例分析42-49
- 4.5 类图结构设计49-51
- 4.6 物理架构设计51-54
- 第五章 系统实现54-73
- 5.1 开发工具与版本控制工具54-55
- 5.1.1 开发工具54
- 5.1.2 版本控制工具54-55
- 5.2 Journal Publishing Tag Set数据结构模型类实现55-57
- 5.3 临时数据模型类实现57-66
- 5.3.1 论文头部信息临时数据模型类57-61
- 5.3.2 论文主体信息临时数据模型类61-62
- 5.3.3 论文结尾信息数据模型类62-65
- 5.3.4 论文其它数据模型类65-66
- 5.4 业务控制类实现66-70
- 5.5 边界类的实现70-73
- 第六章 安装部署说明与系统测试73-81
- 6.1 软件的安装与配置73-74
- 6.2 系统测试74-80
- 6.2.1 导出PDF图片75
- 6.2.2 维护相关信息及HTML内容编辑75-78
- 6.2.3 线下验证XML文件78-79
- 6.2.4 线上验证XML文件79-80
- 6.3 系统性能测试80-81
- 第七章 总结与展望81-83
- 7.1 全文总结81
- 7.2 工作展望81-83
- 参考文献83-85
- 攻读硕士学位期间取得的研究成果85-86
- 致谢86-87
- 附件87
【参考文献】
中国期刊全文数据库 前1条
1 金丽萍;;电子期刊与纸质期刊的差异比较[J];理论观察;2006年01期
,本文编号:551264
本文链接:https://www.wllwen.com/wenshubaike/hetongwenben/551264.html