基于文本信息的知识文档管理系统设计与实现

发布时间：2021-11-21 01:34

　　伴随着全球信息化应用水平的提升,智能化IT运维管理平台已经成为互联网企业的投资重点,平台被大量的数据和信息所覆盖,造成运维管理难度的增大,为了帮助用户尽快解决平台告警,并建立企业知识共享平台,设计了基于文本信息的知识文档管理系统。该系统不仅可以为企业节省资源,还能将隐性知识转换成显性知识进行存储和利用。因此,该文主要是针对知识文档管理系统中的开发需求进行设计和实现。首先,针对知识文档文本信息利用率不足的问题,对文档格式进行研究和分析,设计知识文档解析模块,分别提出了基于Stream流的PDF文档解析和基于二进制格式的复合文档（storage file format,OLE）文档解析方案,并对文本信息的提取以及转码等操作进行C语言编程。在此基础上,进一步对PDF和DOC文档解析结果以及模块性能进行测试与分析。其次,针对知识文档安全性欠缺的弊端,设计知识文档安全模块,根据关键词提取和文档加密分别研究了基于多特征的TextRank关键词提取算法和基于文本信息的数据加密标准（Data Encryption Standard,DES）加密算法。将提取的关键词进行预处理,进而与DES密钥进行置换,...

【文章来源】：燕山大学河北省

【文章页数】：58 页

【学位级别】：硕士

【部分图文】：

知识文档解析模块整体设计框图

示意图,文档结构,层次关系,文档

PDF 是 Portable Document Forma 文档的简称，又称为便携式文档，对于保存文本信息是非常熟悉常用的文档格式，主要的特点是与平台、硬件应用程序无关的方式保存文字、图像、视频和音频等信息，功能非常强大。现在企业知识管理中除了用Word 对知识进行存储以外，PDF 也是主要存储知识的一种主要方式。本节研究了基于 Stream 流的 PDF 文档解析，针对 PDF 文档编程实现文本信息的提取。2.2.1 PDF 文档格式研究及解析功能实现PDF 文档根据其结构可以分为文档头、文档体、交叉引用表和文档尾四部分。其中文档头(Header)位置位于 PDF 文档起始位置，用于指明当前 PDF 文档对应的版本号；文档体(Body)是由多种对象组成，PDF 文档中的内容、格式和编码方式都保存于此部分；交差引用表(Xreftable)用于间接对象的随机存取，并为间接对象建立的一个地址索引表，表示偏移量；文档尾(Trailer)是分析 PDF 文档格式的入口，指明了文档体的根对象(Catalog)。PDF 文档结构的层次关系示意如图 2-2 所示：

解析流程,文档,内容

燕山大学工程硕士学位论文 PDF 文档之前，为了避免出现一些不必要的错误，如权限不前将解析环境搭建好，PDF 文档的路径是一个绝对路径，程径去读取需要解析的 PDF 文档，然后通过 stat()接口函数去将其转换成二进制流读入，之后是加载一些解析配置文件。在 PDF 文档格式的分析，接下来可以对 PDF 文档文本信息进行文档内容解析流程如图 2-3 所示：

本文编号：3508493

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/glzh/3508493.html

上一篇：家族企业超额控制权对盈余管理的影响研究
下一篇：组织沟通对工作压力的影响机制分析——应对方式的中介作用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|