当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于搜索引擎网络信息的压缩系统的研究和实现

发布时间:2018-06-17 21:14

  本文选题:搜索引擎 + 压缩 ; 参考:《华中科技大学》2012年硕士论文


【摘要】:随着互联网的飞速发展,,网络信息呈现大爆炸的趋势,获取这些海量信息的搜索引擎应运而生。面对搜索引擎获取的海量信息,研究如何利用有效的技术来存储和检索这些信息具有重要的意义。目前搜索引擎中常见的方法是利用数据库或索引来存储这些信息并提供接口来检索。本文实现了一种压缩技术和索引相结合的技术方法来解决搜索引擎的网络信息存储和检索问题。 本文首先介绍了搜索引擎相关技术,并详细介绍了本文系统的方案所运用的Zip和GZip压缩算法原理,为最终系统的实现奠定了理论基础。 然后再针对搜索引擎的网络信息特点进行重点分析。这种信息具有信息量大,时效性强,多媒体化信息,超链接方式等鲜明特点。设计了针对文本信息和非文本信息分别采用Zip算法和GZip算法的方案,进而设计了基于搜索引擎网络信息的压缩系统的方案。 接着实现了基于搜索引擎网络信息的压缩系统。系统分为三部分,首先采集网络信息,然后通过压缩算法处理并存储这些数据,最后检索时将数据解压还原为原始信息。 最后通过实验测试,从准确性、压缩率、压缩速度三个指标对本文设计的基于搜索引擎信息压缩方案的效能进行评估。实验数据证明了该压缩系统方案的压缩算法具有很高的压缩率和压缩速度且具有实用性,从而有效地解决了搜索引擎的数据存储和检索问题。
[Abstract]:With the rapid development of the Internet, the network information presents the trend of big explosion, the search engine that obtains these massive information emerges as the times require. In the face of the massive information obtained by search engines, it is of great significance to study how to use effective technology to store and retrieve these information. At present, the common method in search engine is to use database or index to store this information and provide interface to retrieve it. In this paper, a compression technique combined with index is implemented to solve the problem of web information storage and retrieval in search engines. This paper first introduces the search engine technology, and introduces in detail the Zip and GZip compression algorithms used in the scheme of the system, which lays a theoretical foundation for the final implementation of the system. Then focus on the characteristics of the search engine network information. This information has a large amount of information, strong timeliness, multimedia information, hyperlinks and other distinct characteristics. The scheme of Zip algorithm and GZip algorithm for text information and non-text information are designed, and then the scheme of compression system based on search engine network information is designed. Then the compression system based on search engine network information is implemented. The system is divided into three parts. Firstly, the network information is collected, then the data is processed and stored by the compression algorithm, and the data is decompressed and restored to the original information when the data is retrieved. Finally, the efficiency of the information compression scheme based on search engine is evaluated from three indexes: accuracy, compression ratio and compression speed. The experimental data show that the compression algorithm of this scheme has high compression rate, compression speed and practicability, thus effectively solving the problem of data storage and retrieval in search engines.
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 王泉,齐春,罗新民,梁嵩;LZW压缩算法的改进及其参数优化分析[J];重庆邮电学院学报(自然科学版);2005年03期

2 肖武德;;几种无损数据压缩算法的探讨及在JAVA Web程序中的应用[J];甘肃科技;2010年04期

3 靳鸿,裴东兴,祖静;无损数据压缩在数据采集系统中的应用探讨[J];华北工学院学报;2003年01期

4 吴国清;陈虹;;一种科学数据无损压缩方法[J];计算机工程与应用;2006年05期

5 姚国祥;罗伟其;沈镇林;;网上信息搜索技术与搜索引擎[J];计算机科学;2000年07期

6 冯志全,范平,张少白,王玉茹,成谢锋;一种无失真图像数据压缩算法[J];计算机应用;2001年S1期

7 李志蜀,李果;中文搜索引擎的原理剖析及开发实现技术[J];计算机应用研究;2001年11期

8 刘俊平,李书振,张志毅;智能搜索引擎实例分析[J];计算机应用研究;2003年01期

9 刘祖斌,王永成,刘椿年;中文全文检索系统中的压缩模型和模式匹配技术[J];中文信息学报;2000年04期

10 李振东,费翔林;基于概念的信息检索模型研究[J];南京大学学报(自然科学版);2002年01期

相关硕士学位论文 前2条

1 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年

2 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年



本文编号:2032475

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2032475.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bb68b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com