PDF格式中文科技论文的有效信息提取方法及分类研究
发布时间:2017-06-01 07:12
本文关键词:PDF格式中文科技论文的有效信息提取方法及分类研究,由笔耕文化传播整理发布。
【摘要】:随着信息技术的不断发展,在人们的生活和工作中出现了各种各样的信息资源,这给我们带来了诸多便利,其中文档资源是当前使用最普遍的信息资源之一。PDF格式的文档资源由于其本身具有操作平台的无关性、文档的视觉显示信息和数据信息之间的独立性以及良好的安全性,逐渐地受到了人们的青睐,正慢慢地发展成为电子文档资源在信息系统中共享的主流文档格式。由于PDF格式文档具有这些优势,当前的科技论文一般都要求采用PDF格式来提交。但是在上传提交PDF格式论文时,由于PDF文档是面向显示的,无法对其内容进行直接处理。所以当前一般采用人工识别和提取的方式来处理PDF格式论文的标记信息,但是这种方式随着论文规模的不断增大,不仅效率降低而且错误率也会提高,这给人们在定位所需的论文资源时带来了麻烦。所以如何更好地对PDF格式论文的标记信息进行准确而高效的提取并对它们做一定的语义处理,成为了当前研究的热点。 本文主要讨论对于PDF格式的中文科技论文的有效信息的提取、摘要的主题句的提取以及根据提取的摘要主题句对论文进行有效地分类。以此希望能提高论文提交时标记论文的准确率和效率,帮助人们能快速而准确地定位到所需的论文信息资源。其中论文的有效信息指的是论文的标题、作者、论文关键词、摘要等信息。围绕这个主题,本文做了一系列的研究工作,主要的研究内容有以下几个方面: 1)对PDF论文的有效信息的提取。由于中文科技论文的格式一般都是固定的,可以利用格式来对论文的有效信息进行提取。并且对于特定的有效信息,它的视觉特征和关键词都是特定的。所以本文将采用论文格式、有效信息的视觉特征和关键词三者相结合的方式来提取论文的有效信息。利用这种方法提取有效信息充分利用了PDF文档的特性,思想简单,能准确、高效地提取出论文的有效信息。 2)提取论文摘要的主题句。这部分是对论文摘要所进行的语义处理。毋庸置疑,论文的关键词是对论文主题的一个简练的概括,论文摘要是对论文中心思想的一个概述,但论文摘要中通常会包含一些冗余信息。在此将讨论利用论文的关键词来提取论文摘要的主题句,从而能够使用户很直观的看到最能体现论文中心思想的主题句。所以在此研究了基于遗传算法,利用论文关键词来提取论文摘要的主题句,达到对论文摘要的精简。 3)利用提取出来的论文摘要主题句对论文进行分类。由于摘要的主题句能够精炼地概括论文的中心主题,所以可以利用其对论文进行有效的分类。这部分是基于朴素贝叶斯算法,利用Lucne.Net和ICTCLAS中文分词系统进行中文分词形成特征向量,从而对论文进行分类。这一部分的主要目的是通过对上传论文的归类,节约了人工分类的开销,为用户准确地定位到所需的论文资源提供了支持。
【关键词】:PDF中文论文 有效信息提取 主题句抽取 分类
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1
【目录】:
- 前言4-5
- 摘要5-7
- Abstract7-12
- 第1章 绪论12-16
- 1.1 研究背景及意义12-14
- 1.2 论文的主要工作14-15
- 1.3 论文的组织结构15-16
- 第2章 论文的有效信息的提取16-25
- 2.1 PDF 文档格式介绍16-19
- 2.1.1 PDF 文档简介16-17
- 2.1.2 PDF 文档的结构和分析17-19
- 2.2 PDF 文件解析类库 PDFBox 的介绍19-20
- 2.3 论文的有效信息及提取的方法20-23
- 2.3.1 论文标题信息的提取21
- 2.3.2 论文作者信息的提取21-22
- 2.3.3 论文摘要信息的提取22
- 2.3.4 论文关键词信息的提取22-23
- 2.4 论文的有效信息的实现23-24
- 2.5 本章小结24-25
- 第3章 论文摘要的主题句的提取25-39
- 3.1 中文分词25-29
- 3.1.1 中文分词介绍25
- 3.1.2 几种分词方法的介绍25-28
- 3.1.3 ICTCLAS 中文分词系统和 Lucene.Net 介绍28-29
- 3.1.4 中文分词的实现29
- 3.2 遗传算法介绍29-35
- 3.2.1 遗传算法概述29-32
- 3.2.2 选择操作32-33
- 3.2.3 杂交操作33-34
- 3.2.4 变异操作34-35
- 3.2.5 终止条件35
- 3.3 基于遗传算法的论文摘要主题句的提取的实现35-38
- 3.3.1 问题建模35-36
- 3.3.2 编码方案的确定36
- 3.3.3 适应度函数的确定36-37
- 3.3.4 选择操作的确定37-38
- 3.3.5 杂交操作的确定38
- 3.3.6 变异操作的确定38
- 3.4 本章小结38-39
- 第4章 基于朴素贝叶斯算法的中文文本分类39-44
- 4.1 中文文本分类介绍39-40
- 4.2 朴素贝叶斯分类算法介绍40-41
- 4.3 基于朴素贝叶斯算法的中文文本分类器的实现41-43
- 4.3.1 问题定义41-42
- 4.3.2 中文分词42
- 4.3.3 特征向量的形成42
- 4.3.4 文本分类训练集介绍42
- 4.3.5 文本分类器的形成42-43
- 4.4 本章小结43-44
- 第5章 总结44-45
- 参考文献45-47
- 致谢47
【引证文献】
中国期刊全文数据库 前1条
1 丁筠;官鑫;;快速编辑和提取PDF文件信息[J];中国科技信息;2012年12期
本文关键词:PDF格式中文科技论文的有效信息提取方法及分类研究,由笔耕文化传播整理发布。
,本文编号:412002
本文链接:https://www.wllwen.com/wenshubaike/hetongwenben/412002.html