当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene的数字版权资源库的构建与应用研究

发布时间:2019-03-18 17:00
【摘要】:随着互联网的飞速发展,信息的存储与传播方式发生了巨大的变化。由于数字资源的易扩散和易传播性,数字资源给人们带来极大便利的同时,也给数字版权管理工作带来了前所未有的挑战。首先,数字版权资源依靠传统的存储方式,不能有效解决日益增长的数字资源的存储问题。其次,对于海量的数字作品如何从中快速搜索有用的信息变的越来越困难。因此构建一个对数字作品具有海量存储和快速搜索功能的数字版权资源库是必要的。 本文采用Hadoop框架下的HDFS分布式文件系统,解决数字作品的海量存储问题;在数字版权资源库的快速搜索方面,先采用Lucene全文检索技术对版权元数据信息创建索引,并对索引文件进行搜索;然后采用Elasticsearch分布式搜索技术对Luc ene的索引文件进行分片存储和分布式搜索;最后本搜索引擎为用户提供友好的操作功能:数字作品管理,数字版权管理,资源库索引,资源库搜索等。 本文的难点和创新点如下:分析了数字版权资源的特征,设计了易于扩展、高度容错、支持海量数据集的云存储方案;研究Lucene技术,设计了数字版权资源元数据全文检索方案;采用Elasticsearch对资源库的索引文件进行分片处理,实现了数字版权资源库的分布式索引和分布式搜索。 本文主要成果是运用HDFS分布式文件系统实现数字版权资源的海量存储,采用Lucene全文检索和Elasticsearch索引分片技术对版权资源库进行分布式索引和快速检索。最终构建了一个高效的、分布式的数字版权资源库,保证海量数字作品的安全可靠存储,促进数字版权产业的资源整合,减少数字作品的传播成本,为数字作品版权信息的登记、备案、搜索和检测提供底层支撑。
[Abstract]:With the rapid development of the Internet, the storage and dissemination of information has undergone tremendous changes. Due to the easy diffusion and dissemination of digital resources, digital resources not only bring great convenience to people, but also bring unprecedented challenges to digital rights management. First of all, digital copyright resources rely on the traditional storage mode, can not effectively solve the growing number of digital resources storage problems. Secondly, it is more and more difficult to quickly search for useful information from the mass of digital works. Therefore, it is necessary to construct a digital copyright database which has the function of mass storage and fast search for digital works. In this paper, the HDFS distributed file system under the framework of Hadoop is used to solve the problem of mass storage of digital works. In the aspect of fast search of digital copyright database, firstly, Lucene full-text retrieval technology is used to create index of copyright metadata information and search index file. Then the Elasticsearch distributed search technology is used to store and distribute the index files of Luc ene. Finally, the search engine provides user-friendly operation functions: digital work management, digital rights management, database index, database search and so on. The difficulties and innovations of this paper are as follows: firstly, this paper analyzes the characteristics of digital copyright resources, designs a cloud storage scheme which is easy to expand, highly fault-tolerant and supports massive data sets, studies Lucene technology, designs a full-text retrieval scheme of digital copyright resources metadata, and designs a full-text retrieval scheme of digital copyright resources metadata. The index file of digital copyright database is partitioned by Elasticsearch, and the distributed index and distributed search of digital copyright database are realized. The main achievement of this paper is to use HDFS distributed file system to realize the mass storage of digital copyright resources. Lucene full-text retrieval and Elasticsearch index slicing technology are used for distributed indexing and fast retrieval of copyright resources. Finally, an efficient and distributed digital copyright resource database is constructed, which ensures the safe and reliable storage of massive digital works, promotes the integration of resources in digital copyright industry, and reduces the transmission cost of digital works. Provides low-level support for registration, filing, search and detection of copyright information for digital works.
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 李云;;版权补偿金制度在图书馆的适用与建构[J];现代情报;2009年07期

2 屈华;;版权补偿金制度在图书馆应用初探[J];图书馆工作与研究;2009年12期

3 ;方正数字版权保护技术被评为“2003年信息产业重大技术发明”[J];图书情报工作;2004年01期

4 ;SafeNet多项解决方案获2006年度科迪奖最终名单提名[J];电脑编程技巧与维护;2006年03期

5 许波;马海群;;从公共借阅权制度到数字版权补偿金制度的理性思考[J];情报资料工作;2006年04期

6 周晓;;互联网数字版权课题研究[J];信息安全与通信保密;2007年11期

7 ;DRM Fusion:为移动电视、音乐和视频提供数字保护[J];通讯世界;2007年09期

8 ;大英图书馆采用新的数字版权管理平台提高电子传递效率[J];图书馆建设;2010年01期

9 孙乐;;从谷歌著作权纠纷案看我国的信息网络传播权[J];法制与社会;2010年19期

10 ;美联社拟建数字版权交易中心[J];新闻记者;2010年11期

相关会议论文 前10条

1 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年

2 申兵一;巩青歌;;基于Lucene桌面搜索引擎系统的设计和实现[A];江苏省电子学会2010年学术年会论文集[C];2010年

3 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

4 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年

5 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

6 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年

7 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年

8 王富强;马德涛;张立朝;王建明;;地方志数据库全文信息检索研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年

9 苏毅;王文力;阎姗;邓峰;;基于Ajax技术信息动态查询的设计与实现[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

10 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

相关重要报纸文章 前10条

1 记者 窦新颖 实习记者 杨冬;国家数字版权研究基地揭牌[N];中国知识产权报;2009年

2 本报见习记者 廖小珊;用集体管理方式解决数字版权问题[N];中国新闻出版报;2010年

3 本报记者 马子雷;数字出版困局如何化解[N];中国文化报;2010年

4 记者 赖名芳;中国数字版权维权联盟成立[N];中国新闻出版报;2011年

5 商报记者 陈杰;“数字版权第一案”中华书局败诉[N];北京商报;2011年

6 记者 陈t,

本文编号:2443041


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2443041.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户34f44***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com