面向美食的垂直搜索引擎的设计与实现
发布时间:2020-09-03 13:59
随着这些年来互联网技术的发展,网络上面的信息越来越烦杂,信息量越来越大。面对着网络上面的海量数据,想要从中寻找到自己想要的信息,也变得困难起来。为了解决互联网用户信息检索的迫切需要,搜索引擎应运而生。我们常用的搜索引擎如谷歌、百度等叫做通用搜索引擎,用户可以通过输入关键词在网络中查询到拥有该关键词的信息。但是通用搜索引擎的搜索结果缺乏针对性,搜索结果多但是有用信息少。为了为用户提供更好的更有效率的检索体验,垂直搜索引擎应运而生。垂直搜索引擎是针对特定需求的用户执行搜索功能的搜索引擎,它的查询效率更高,查询效果更好。垂直搜索引擎是专门针对于某一领域的搜索引擎,查询结果都是在该领域中包含搜索关键字的信息,为检索用户节省了在通用搜索引擎中筛选无关信息所浪费的大量时间。现如今,在互联网上的垂直搜索引擎五花八门,其中针对音乐、图片、新闻和购物的垂直搜索引擎比较多,针对美食的比较少。但是随着现如今人们的生活水平的提高,却有越来越多的人不知道每天要吃什么、去哪里吃、如何健康的吃,一个面向美食的垂直搜索引擎能够帮助人们解决这些问题。面向美食的垂直搜索引擎能够帮用户筛选互联网中的与美食无关的信息,用户即使输入一个看似与美食无关的词语,也可以在其中检索到各种该词语与美食相关的推荐、菜谱和餐厅等信息,如搜索“冬天”,将查询到各种与冬天有关的美食信息。本文将介绍一个针对于美食领域的垂直搜索引擎的研究与实现的全过程。其中包括对网络数据的获取和对获取数据的处理、对索引的研究以及最后对垂直搜索引擎系统的设计与实现。在数据的获取和处理中,将使用Heritrix制作网络爬虫爬取互联网中的数据,Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源[1]。然后使用正则表达式和HTMLParser提取网页内容,通过ICTCLAS和IKAnalyzer进行中文分词的研究,之后还要进行去重、词频统计和排序等数据的研究和处理。在索引的创建方面,需要研究Lucene和Solr,Solr是在Lucene的基础上对Lucene的进一步封装,能够提高索引的效率。在最后的系统创建部分,将使用Spring+Struts+Hibernate框架,在数据库方面,将使用开源的关系型数据库MySQL。
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.3
【部分图文】:
第 2 章 美食数据的获取和处理2.2 Heritrix 的主题抓取策略和优化Heritrix 是一个开源的、可扩展的网络爬虫项目,用户可以使用它从网络上爬取想要的资源。Heritrix 是由 Java 开发的一个 Java 的开源框架,它通过深度遍历网站资源,分析网站中每一个有效的 URI,将网站内容抓取到本地。Heritrix的架构如图 2.4 所示。
第 2 章 美食数据的获取和处理(2)取消 robot.txt 的限制很多网站会创建一个 robot.txt 文件,在文件中指明不想被访问的部分。如果在爬取过程中一一访问这些文件,将会大大影响抓取的效率,甚至导致整个抓取任务的失败。为了提高抓取的效率,可以在 Heritrix 的 PreconditionEnforcer 中的considerRobotsPreconditions 方法下设置返回值为 false,这样在抓取过程中将不会考虑 robot.txt 文件。图 2.5 和图 2.6 分别是以美食天下为例在 Heritrix 优化前与优化后的爬取结果。从图中可以看出,爬取时间有了很大的变化。
优化后爬取报告
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.3
【部分图文】:
第 2 章 美食数据的获取和处理2.2 Heritrix 的主题抓取策略和优化Heritrix 是一个开源的、可扩展的网络爬虫项目,用户可以使用它从网络上爬取想要的资源。Heritrix 是由 Java 开发的一个 Java 的开源框架,它通过深度遍历网站资源,分析网站中每一个有效的 URI,将网站内容抓取到本地。Heritrix的架构如图 2.4 所示。
第 2 章 美食数据的获取和处理(2)取消 robot.txt 的限制很多网站会创建一个 robot.txt 文件,在文件中指明不想被访问的部分。如果在爬取过程中一一访问这些文件,将会大大影响抓取的效率,甚至导致整个抓取任务的失败。为了提高抓取的效率,可以在 Heritrix 的 PreconditionEnforcer 中的considerRobotsPreconditions 方法下设置返回值为 false,这样在抓取过程中将不会考虑 robot.txt 文件。图 2.5 和图 2.6 分别是以美食天下为例在 Heritrix 优化前与优化后的爬取结果。从图中可以看出,爬取时间有了很大的变化。
优化后爬取报告
【参考文献】
相关期刊论文 前7条
1 严磊;马勇男;丁宾;郑涛;;垂直搜索引擎之主题网络爬虫[J];福建电脑;2013年03期
2 顾t
本文编号:2811536
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2811536.html