当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于版权服务的网络数据采集算法研究

发布时间:2019-04-24 08:19
【摘要】:伴随着网络的飞速发展,网络传播速度快和成本低,数字作品容易在互联网中传播和扩散,给数字版权管理工作带来了前所未有的挑战。未经授权的数字作品在互联网上的转载或盗链,严重地损害了数字作品权利人的权利和利益。如何有效地在网络上检测出那些未经授权的数字作品,是版权保护中网络监测的重要环节。而通用搜索引擎由于搜索的范围广、数据采集的规模庞大、检索结果往往重复等问题,所以,对基于版权服务的网络数据采集算法进行研究具有实际意义。 论文首先介绍了通用搜索引擎的组成及工作原理,阐述了垂直搜索引擎的关键技术如网络爬虫、信息抽取等。针对搜索中重复链接问题,详细讨论了网络爬虫的URL地址去重策略和爬行搜索策略,分别论述了基于内存的Hash算法进行URL地址去重、基于嵌入式数据库Berk eley DB方式的URL地址去重算法以及基于内容和URL链接分析的搜索策略,并对这些算法的优缺点进行了比较和分析,在此基础上,论文综合了Bloom Filter算法消耗内存少、速度快和嵌入式数据库Berkeley DB进行URL地址去重时性能稳定等优点,结合数字音乐作品相对稳定的展现格式和所在网页层次深度较小等特点,设计了一种新的URL地址去重算法。根据不同要求分别采用Bloom Filter进行URL地址去重和Berkeley DB方法进行去重,同时对URL地址采用MD5压缩后存入嵌入式数据库中进行读取,这样能更好地减少存储空间。针对基于内容评价算法的“近视问题”和基于网络链接评价算法的“主题漂移”现象,将Shark Search算法和Hits算法的优点结合起来,同时考虑内容主题和链接互相加强的关系,提出一种新的主题爬取策略算法。论文以开源Heritrix框架为基础,设计了一个垂直搜索引擎,对本文提出的URL地址去重算法和搜索策略进行实验分析。 论文的创新点是提出了一种新的URL地址去重算法和基于内容与链接评价相结合的搜索策略,并对算法的效率进行了测试分析。
[Abstract]:With the rapid development of network, the network transmission speed is fast and the cost is low, and the digital works are easy to spread and spread in the Internet, which brings the unprecedented challenge to the digital rights management work. Unauthorized reproduction or theft of digital works on the Internet seriously damages the rights and interests of the rights holders of digital works. How to effectively detect unauthorized digital works on the network is an important part of network monitoring in copyright protection. Because of the wide range of search, the large scale of data collection and the repeated retrieval results, the research on the network data acquisition algorithm based on copyright service is of practical significance. This paper first introduces the composition and working principle of general search engine, and expounds the key technologies of vertical search engine, such as web crawler, information extraction and so on. In order to solve the problem of repeated links in search, the URL address de-reduplication strategy and crawling search strategy of web crawler are discussed in detail, and the memory-based Hash algorithm for URL address reduplication is discussed respectively. The URL address de-duplication algorithm based on embedded database Berk eley DB and the search strategy based on content and URL link analysis are compared and analyzed. On this basis, the advantages and disadvantages of these algorithms are compared and analyzed. The paper combines the advantages of Bloom Filter algorithm, such as less memory consumption, faster speed and stable performance when the embedded database Berkeley DB is used to remove the heavy URL address, and combines the characteristics of the relatively stable presentation format of digital music works and the low level depth of the web page, and so on. A new URL address de-duplication algorithm is designed. According to different requirements, Bloom Filter is used to remove the URL address and the Berkeley DB method is used to remove the weight. At the same time, the URL address is compressed by MD5 and stored in the embedded database for reading, so that the storage space can be reduced better. In view of the "myopia problem" based on content evaluation algorithm and the "theme drift" phenomenon based on network link evaluation algorithm, the advantages of Shark Search algorithm and Hits algorithm are combined, and the relationship between content topic and link is considered. A new topic crawling strategy algorithm is proposed. Based on the open source Heritrix framework, a vertical search engine is designed, and the URL address de-duplication algorithm and search strategy proposed in this paper are analyzed experimentally. The innovation of this paper is that a new URL address reduplication algorithm and a search strategy based on content and link evaluation are proposed, and the efficiency of the algorithm is tested and analyzed.
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 段爱华;段q;;网络搜索研究与应用[J];大众科技;2007年04期

2 崔泽永,常晓燕;搜索引擎的Web Robot技术与优化[J];微机发展;2004年04期

3 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期

4 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期

5 丁婕;;管窥“网络蜘蛛”之网上爬行[J];技术与市场;2008年08期

6 郑志波;;搜索器的设计与实现[J];电脑知识与技术(学术交流);2007年01期

7 吴清江;吴政;刘琳琅;;面向侨务信息主题的搜索引擎系统[J];华侨大学学报(自然科学版);2006年04期

8 李爱军;王海滨;郑晓波;;基于推理控制策略的智能型电力搜索引擎的研究[J];西华大学学报(自然科学版);2008年06期

9 刘苍剑;;Internet中文搜索引擎检索系统设计[J];适用技术市场;2001年04期

10 刘汉兴;刘财兴;;主题爬虫的搜索策略研究[J];计算机工程与设计;2008年12期

相关会议论文 前10条

1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

2 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

3 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

4 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

6 张博锋;刘凤;周传飞;邹国兵;;基于P2P的制造资源搜索引擎的研究与实现[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

8 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

9 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

10 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

相关重要报纸文章 前10条

1 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年

2 李一鑫;搜索排名的红与黑[N];财经时报;2007年

3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,,还是门户[N];中国计算机报;2005年

6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

9 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

10 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

相关博士学位论文 前10条

1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

2 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

3 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

4 张帆;搜索引擎中索引表求交和提前停止技术优化研究[D];南开大学;2012年

5 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

6 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

8 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年

9 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

10 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

相关硕士学位论文 前10条

1 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年

2 夏景隆;基于版权服务的网络数据采集算法研究[D];北方工业大学;2013年

3 苏国荣;校园网搜索引擎排序的去重方法研究[D];国防科学技术大学;2010年

4 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年

5 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年

6 任妤;基于Nutch的科技主题搜索引擎Crawler的研究与实现[D];内蒙古科技大学;2011年

7 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

8 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年

9 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年

10 张朝斌;企业级搜索引擎的优化设计与实现[D];华南理工大学;2010年



本文编号:2464291

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2464291.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fdf60***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com