面向信息安全的垂直搜索引擎的研究与实现
发布时间:2020-07-18 23:49
【摘要】:当今网络信息技术的高速发展,使互联网已经成为了全球信息传播及共享的重要资源平台。随着网络数据量的不断增大,用户通过传统的搜索引擎在海量网络资源中去精确查找自己所需要的资源也越来越困难。人们迫切需要一种可以对专业领域信息进行精确搜索的查询方法。同时,随着网络技术的发展,网络环境愈加复杂,其中的信息安全问题愈发严峻。在这样的背景下,设计一个专门针对信息安全领域的垂直搜索引擎具有极其重要的意义。 本文的主要研究内容如下: 1.从垂直搜索引擎的由来、特点及其工作原理开始着手,详细分析了Heritrix开源网络爬虫的系统结构。在此基础上,通过扩展Heritrix的解析器实现了爬虫对特定网页资源的高效、多线程抓取的目的。 2.深入剖析了Lucene的系统结构,分析并指出了Lucene原有的排序算法的不足,通过引入基于链接分析的PageRank算法,改进了Lucene原有排序算法,使排序结果更加准确。 3.在上述研究的基础上,通过设计各个子系统,运用改进的爬虫和排序算法实现了面向信息安全的垂直搜索引擎系统原型。
【学位授予单位】:华东理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3;TP309
本文编号:2761587
【学位授予单位】:华东理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3;TP309
【参考文献】
相关期刊论文 前10条
1 高波;;一种面向主题的搜索引擎的实现[J];常州工学院学报;2008年02期
2 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
3 袁小洁;;基于Heritrix的商品信息搜索的网络爬虫系统的设计[J];电脑编程技巧与维护;2012年22期
4 胡嘉海;;基于Lucene的全文搜索引擎的设计与实现[J];安徽科技;2012年12期
5 王庆民;;互联网搜索引擎的发展、应用和特点[J];农业网络信息;2009年05期
6 王琦;张戈;何婧;;基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现[J];计算机时代;2010年02期
7 张巍,李志蜀;基于PageRank算法的搜索引擎优化策略[J];计算机应用;2005年07期
8 黄蔚;刘忠;刘全;;RL_Spider:一种自主垂直搜索引擎网络爬虫[J];计算机应用与软件;2011年12期
9 焦丽;;网络搜索引擎研究概述[J];农业图书情报学刊;2008年03期
10 邹涛,戚广智,蔡丽娟,张福炎;网络信息挖掘系统IDGS的实现[J];南京大学学报(自然科学版);2000年02期
本文编号:2761587
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2761587.html