当前位置:主页 > 管理论文 > 管理理论论文 >

基于文本信息的知识文档管理系统设计与实现

发布时间:2021-11-21 01:34
  伴随着全球信息化应用水平的提升,智能化IT运维管理平台已经成为互联网企业的投资重点,平台被大量的数据和信息所覆盖,造成运维管理难度的增大,为了帮助用户尽快解决平台告警,并建立企业知识共享平台,设计了基于文本信息的知识文档管理系统。该系统不仅可以为企业节省资源,还能将隐性知识转换成显性知识进行存储和利用。因此,该文主要是针对知识文档管理系统中的开发需求进行设计和实现。首先,针对知识文档文本信息利用率不足的问题,对文档格式进行研究和分析,设计知识文档解析模块,分别提出了基于Stream流的PDF文档解析和基于二进制格式的复合文档(storage file format,OLE)文档解析方案,并对文本信息的提取以及转码等操作进行C语言编程。在此基础上,进一步对PDF和DOC文档解析结果以及模块性能进行测试与分析。其次,针对知识文档安全性欠缺的弊端,设计知识文档安全模块,根据关键词提取和文档加密分别研究了基于多特征的TextRank关键词提取算法和基于文本信息的数据加密标准(Data Encryption Standard,DES)加密算法。将提取的关键词进行预处理,进而与DES密钥进行置换,... 

【文章来源】:燕山大学河北省

【文章页数】:58 页

【学位级别】:硕士

【部分图文】:

基于文本信息的知识文档管理系统设计与实现


知识文档解析模块整体设计框图

示意图,文档结构,层次关系,文档


PDF 是 Portable Document Forma 文档的简称,又称为便携式文档,对于保存文本信息是非常熟悉常用的文档格式,主要的特点是与平台、硬件应用程序无关的方式保存文字、图像、视频和音频等信息,功能非常强大。现在企业知识管理中除了用Word 对知识进行存储以外,PDF 也是主要存储知识的一种主要方式。本节研究了基于 Stream 流的 PDF 文档解析,针对 PDF 文档编程实现文本信息的提取。2.2.1 PDF 文档格式研究及解析功能实现PDF 文档根据其结构可以分为文档头、文档体、交叉引用表和文档尾四部分。其中文档头(Header)位置位于 PDF 文档起始位置,用于指明当前 PDF 文档对应的版本号;文档体(Body)是由多种对象组成,PDF 文档中的内容、格式和编码方式都保存于此部分;交差引用表(Xreftable)用于间接对象的随机存取,并为间接对象建立的一个地址索引表,表示偏移量;文档尾(Trailer)是分析 PDF 文档格式的入口,指明了文档体的根对象(Catalog)。PDF 文档结构的层次关系示意如图 2-2 所示:

解析流程,文档,内容


燕山大学工程硕士学位论文 PDF 文档之前,为了避免出现一些不必要的错误,如权限不前将解析环境搭建好,PDF 文档的路径是一个绝对路径,程径去读取需要解析的 PDF 文档,然后通过 stat()接口函数去将其转换成二进制流读入,之后是加载一些解析配置文件。在 PDF 文档格式的分析,接下来可以对 PDF 文档文本信息进行 文档内容解析流程如图 2-3 所示:


本文编号:3508493

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/glzh/3508493.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ef210***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com