数字版权资源库的构建中Lucene技术的应用研究
【摘要】 随着互联网的飞速发展,信息的存储与传播方式发生了巨大的变化。由于数字资源的易扩散和易传播性,数字资源给人们带来极大便利的同时,也给数字版权管理工作带来了前所未有的挑战。首先,数字版权资源依靠传统的存储方式,不能有效解决日益增长的数字资源的存储问题。其次,对于海量的数字作品如何从中快速搜索有用的信息变的越来越困难。因此构建一个对数字作品具有海量存储和快速搜索功能的数字版权资源库是必要的。本文采用Hadoop框架下的HDFS分布式文件系统,解决数字作品的海量存储问题;在数字版权资源库的快速搜索方面,先采用Lucene全文检索技术对版权元数据信息创建索引,并对索引文件进行搜索;然后采用Elasticsearch分布式搜索技术对Luc ene的索引文件进行分片存储和分布式搜索;最后本搜索引擎为用户提供友好的操作功能:数字作品管理,数字版权管理,资源库索引,资源库搜索等。本文的难点和创新点如下:分析了数字版权资源的特征,设计了易于扩展、高度容错、支持海量数据集的云存储方案;研究Lucene技术,设计了数字版权资源元数据全文检索方案;采用Elasticsearch对资源库的索引文件进行分片处理,实现了数字版权资源库的分布式索引和分布式搜索。本文主要成果是运用HDFS分布式文件系统实现数字版权资源的海量存储,采用Lucene全文检索和Elasticsearch索引分片技术对版权资源库进行分布式索引和快速检索。最终构建了一个高效的、分布式的数字版权资源库,保证海量数字作品的安全可靠存储,促进数字版权产业的资源整合,减少数字作品的传播成本,为数字作品版权信息的登记、备案、搜索和检测提供底层支撑。
1绪论
1.1课题研究背景
在数字版权管理方面,国内外上有许多著名的数字版权管理系统及产品,比如微软公司的公司的公司的和北大方正的等。另外中科院自动化所和香港大学等研究机构也都对数字版权管理技术的体系结构和关键算法进行了深入的探索与研究⑴。在各种数字版权管理系统及产品研究中,为方便数字版权资源的数据整合,需要构建一个完整的、规范的数字版权资源库,这样可以有效的促进数字版权资源的贸易和流通,提高了数字版权管理工作效率。中国版权保护中心在对版权保护技术和法律法规的研究分析后,认为从根本上解决数字作品产业链各个参弓者的利益分享和技术创新,实现快速高效的维权机制,是瓦联网上数字版权保护的主要问题。为了解决述问题,中国版权保护中心结合中国国情提出了数字版权唯一标识符简称,并通过高新技术乎段解决的数字版权资源信总的海量存储和快速搜索题,提出了数字版权资源库的构建与应用研究,并实现数字作品的海量存储和快速搜索。
1.2国内外研究现状及趋势
近年来,数字版权管理技术已经应用到电子书、图片、音频、视频等领域,但还存在一些有待解决的难点问题,针对国内数字内容服务方面,还有一定的研究空间。比如数字版权元数据的标准化,数字版权资源库的构建,数字作品的盗版检测和数字作品的权利转移等技术的研究。目前国内外有很多各种各样的资源库,如医学资源库、教育资源库、图书资源库,但是对于数字版权资源库却很少,数字版权资源库主要存储的是数字作品的版权信息,为数字版权管理提供底层支撑。本课题以数字版权内容备案和数字版权内容搜索为核心,收集整理大量数字版权信息,利用技术手段针对数字内容进行特征备案,形成数字版权资源数据库。数字版权资源信息包括数字作品元数据信息和和数字作品源文件,同时为数字作品信息提供海量存储和快速搜索等服务。
..............
2相关技术介绍
2.1云存储技术
传统的技术架构已经越來越不适应海故数据的处要求,凭借其在海量数据处理领域的领先技术,在激烈的行业竞争中街很大的优势,其中的两个技术就是分布式存储和分布式计算框架。其设汁想来源于的和这两篇学术文章,它最年的应用是为搜索引擎建立索引和提供快速搜索功能“。框架中也括分布式文件系统和并行计算,其中分布式文件系统具有靠性、高安全性和扩展性等优点。云存储不只是具体的存储设备,而是釆用集群技术将大量的机器集合起来组成一个具有海量存储和并行访问等功能的集群这种通过应用软件和存储设备来实现存储服务的功能,即是云储存。
如上图所示在集群中有多个集群节点组成,在集群中有一个名节点和多个数据节点。名节点保存元数据信息和志操作信息,通过名节点可以获取具体的数据存放的块位置信息和块的操作信息。数据节点保存具体的块集群中的块默认大小是,每个块都有多个副本来保证数据的可靠性。名节点是任务的管理者数掘节点执行具体的任务。同样集群中只能有一个,可以有多个。客户端可以通过来访问也可以直接访问。
2.2 Lucene全文检索技术
下面来介绍一下全文检索工具包的优点:是基于语言开发的,具有面丨句对象的特性。提供了简单易用的索引和搜索,具有良好的扩展性。具有独立的文本分〗处理接口,通过实现索引文件的创建,程序员可以根据业务需要实现具体的文本分析接口来扩展新的文件格式。工具包对于文本索引和搜索其冇一套高效解决方案,程序员只需要根据具体业务调的接—就可以实现自己的搜索引擎,其查询包括:布尔查询、短语查询、模糊査询、多字段査询等等。
3数字版权资源痄搜索引擎的研究............14
3.1数字版权资源库的休系架构.................14
3.2数字版权资源库的二存储技术...........................15
4数字版权资源库搜索引擎的设计与实现.........................26
4.1数字版权资源库搜索引擎的设计............................26
4.1.1需求分析....................26
5实验结果分析..................44
5.1系统实验环境...............44
5.2实验数据准备.....................44
5.3海量存储...............45
5实验结果分析
5.1系统实验环境
云存储集群:台机器系统;分布式搜索集群:台机器系统;主要技术、开发环境;运行环境;框架。
5.2实验数据准备
数字版权资源库包括数字版权元数据和数字作品的源文件,均来源于中国版权保护中心的真实的数字作品信息,木文测试数据量在选择大小在四个数量级:万条记录、条记录、万条记录、万条记万条记录。在此四个数量级上比较索引的创建时间和索引文件大小,搜索的查询时间,比较查询的内容对于查询字段有:作品名称、作者、作品说明,对于和分布式搜索査询内容都是全文检索,本系统测试比较了查询词“家乡基础阅读”。其体的测试数据准备如下表所示。本文所采用的支持高并发的数掘存储,在集群搭建完毕后,采用文件大小分别是等四个级别来测试分布式文件系统的上传和下载性能,将四类文件上传到文件系统上,如下图所示。
..............
6总结与展望
目前数字版权产业的发展趋势是要求系统平台化、服务规范化、功能一体化。数字版权资源库搜索引擎的相关技术和策略正在面临巨大的挑战,数字版权资源信息的飞速增长,缺乏规范统一的资源库,并对其提供快速搜索服务等问题,从而不利于数字版权的监管和发展。为了解决这些问题,本文采用了基于的全文检索技术,在海量数字源文件存储方面采用了云存储技术;其中对的索引文件,采用进行分布式索引和分布式搜索,从而构建了基于的数字版权资源库搜索引擎,并且对数字版权资源库的构建过程做了详细的介绍,本文的难点和创新点如下:分析了数字版权资源的特征,设计了易于扩展、高度容错、支持海量数据集的云存储方案;研究技术,设计了数字版权资源元数据全文检索方案;对资源库的索引文件进行分片处理,实现了数字版权资源厍的分布式索引和分布式搜索。该系统中,也可能存在很多问题,比如,与其他系统的集成问题。基于的数字版权资源庳搜索引擎已基本成形,从最辱接触全文检索技术,到学习分布式文件系统,到堪于对的索引文件;行分片段存储和搜索的各种工、技术研究学,最后实现整个数字版资源库搜索引擎,在研究学习过,不仅提高了软件编程实现的能力,而且对云存储和全文检索技术了一定的理解。
...................
参考文献:
- [1] 吴洁明,韩云辉,冀单单. 基于Lucene的数字作品搜索引擎的研究与设计[J]. 计算机工程与科学. 2013(05)
- [2] 赵珂,逯鹏,李永强. 基于Lucene的搜索引擎设计与实现[J]. 计算机工程. 2011(16)
- [3] 周国祥,陆文海. 基于BHO技术的数字版权保护系统的研究与设计[J]. 计算机研究与发展. 2010(S1)
- [4] 唐箭. 云存储系统的分析与应用研究[J]. 电脑知识与技术. 2009(20)
- [5] 李颖,李志蜀,邓欢. 基于Lucene的中文分词方法设计与实现[J]. 四川大学学报(自然科学版). 2008(05)
- [6] 孔伯煊,李祥. 基于Lucene\XML技术的Web搜索引擎设计与实现[J]. 航空计算技术. 2006(04)
- [7] 李振龙. Web信息检索的技术分析与发展策略研究[J]. 计算机科学. 2006(04)
- [8] 赵汀,孟祥武. 基于LUCENEAPI的中文全文数据库设计与实现[J]. 计算机工程与应用. 2003(20)
- [9] 邹海山,吴勇,吴月珠,陈阵. 中文搜索引擎中的中文信息处理技术[J]. 计算机应用研究. 2000(12)
本文编号:9233
本文链接:https://www.wllwen.com/shoufeilunwen/shuoshibiyelunwen/9233.html