当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向多数据源的分布式格文档管理系统的设计与实现

发布时间:2017-12-28 18:06

  本文关键词:面向多数据源的分布式格文档管理系统的设计与实现 出处:《华南理工大学》2015年硕士论文 论文类型:学位论文


  更多相关文章: 大数据 异构数据 复合文档 知识管理 驱动器


【摘要】:在大数据的场景中,各类文档数据数量庞大、种类繁多。除了面向数据进行一般的处理之外,如何将纷乱复杂、海量分布的数据资源,组织、提炼为面向领域的概括性的、综合型的、抽象性的信息——知识,同样是重要任务。因此,面向知识管理的数据组织与建模是很有必要的。格文档系统通过复合文档的形式,支持用户有效的组织与提炼信息,生成知识大数据。为了实现对各种类型数据的统一集成处理,本文根据齐德昱教授提出的格文档(GriDoc)模型,进一步研究了格文档的体系与实现方法,给出了一个面向多数据源的格文档管理器。该管理器支持对异构、多源文档的统一显示和输出,支持文档远端同步,并集成全文检索功能,实现了知识管理效果。格文档管理器采用Java RMI远程通信技术实现文档数据的远程同步,并使用基于lucene的二次开发搜索引擎以及mmseg4j中文分词器实现文档全文检索功能。本文对实现的功能模块进行实验和应用,系统的试运行和测试表明系统达到了设计目标的要求。该系统运行可靠,使用方便,使用户能够以统一的方式访问和处理异构数据,提高了文档管理工作的效率。
[Abstract]:In the scene of large data, all kinds of document data are large and varied. In addition to dealing with data in general, how to organize and extract complex, massive data resources into a general, comprehensive and abstract knowledge -- knowledge is also an important task. Therefore, it is necessary for the data organization and modeling to be oriented to knowledge management. In the form of complex documents, the grid document system supports the user to organize and extract information effectively and generate large knowledge data. In order to realize the unified integration of all kinds of data, this paper further studies the system and implementation method of lattice document based on the lattice document (GriDoc) model proposed by Professor Qi Deyu, and gives a lattice document manager for multiple data sources. The manager supports unified display and output of heterogeneous and multi-source documents, supports remote synchronization of documents, and integrates full-text retrieval function, achieving the effect of knowledge management. Lattice document manager implements remote synchronization of document data by Java RMI remote communication technology, and implements full-text retrieval function based on Lucene, the two development search engine and mmseg4j Chinese word segmentation device. The experiment and application of the functional modules are carried out in this paper. The test run and test of the system show that the system meets the requirements of the design goal. The system is reliable and easy to use. Users can access and process heterogeneous data in a unified way, and improve the efficiency of document management.
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52

【参考文献】

相关期刊论文 前3条

1 李瑞轩,卢正鼎,肖卫军,李兵;多数据库系统中基于XIDM的模式映射方法研究[J];计算机研究与发展;2004年03期

2 王宁,徐宏炳,王能斌;数据树── 一种用于异构数据源集成的公共数据模型[J];计算机研究与发展;1998年07期

3 孙凌玲;许春艳;田晶;;完全高校文档管理系统的研究与分析[J];科技传播;2010年14期

相关硕士学位论文 前2条

1 谢佳明;企业文档管理系统的设计与实现[D];华南理工大学;2012年

2 冯梓健;GriDoc文档管理器的设计与实现[D];华南理工大学;2013年



本文编号:1346853

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1346853.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户31241***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com