二手房的垂直搜索引擎的设计与实现
发布时间:2021-04-30 03:18
随着互联网的飞速发展以及大数据的到来,各个领域充斥着大量的信息。如何检索出有用的信息成为了各领域的首要任务。因此,结合垂直搜索引擎技术开发出二手房的搜索引擎平台成为了该领域的亟需解决的问题。主题网络爬虫策略融合了网页采集、网页分块、主题相关度判定以及信息提取等技术。该策略在领域网页采集方面有着明显的优势,如具有很高的网络资源利用率以及信息采集的准确率。本文在考虑网页的相关度计算中,融合了链接所在的内容块与主题的相似度,通过对链接的相似度与网页内容的相似度的权重组合,来过滤与主题无关的网页,同时链接与主题相似度也能够降低爬虫服务对无关链接的访问量。本文结合全文检索框架Lucene、分布式爬虫框架以及HBase集群开发了一套二手房的垂直搜索引擎。该爬虫框架实时抓取国内多个二手房网站数据,目前已经抓取的网页库达到千万级的二手房数据,并存储到HBase集群,可用于数据分析以及挖掘等。该搜索引擎融合了同义词以及Rocchio相关反馈算法对原始查询的扩展,进而优化Lucene的默认查询,并提供了域查询以及模糊查询等多样化的功能。最后对二手房的垂直搜索引擎中的网络爬虫以及检索模块进行了功能测试,并与...
【文章来源】:西南交通大学四川省 211工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 主要内容和结构安排
第2章 垂直搜索引擎相关技术
2.1 搜索引擎工作原理
2.2 二手房的垂直搜索引擎的特点
2.2.1 垂直搜索引擎的特点
2.2.2 二手房信息的特点
2.3 网络爬虫技术
2.3.1 主题爬虫架构
2.3.2 网络爬虫策略
2.4 中文分词技术
2.4.1 中文分词概述
2.4.2 中文分词基本算法
2.5 非关系型数据库HBase
2.5.1 HBase概述
2.5.2 HBase特性
2.5.3 HBase集群架构
2.6 全文检索框架Lucene
2.6.1 Lucene概述
2.6.2 Lucene系统结构
2.6.3 Lucene索引
2.7 本章小结
第3章 二手房的主题网络爬虫策略设计
3.1 基于网页内容的网络爬虫策略
3.1.1 Fish-Search算法
3.1.2 Shark-Search算法
3.2 内容块相似度
3.2.1 网页分块技术
3.2.2 主题相似度算法
3.3 二手房的网络爬虫策略
3.3.1 链接以及网页相似度算法
3.3.2 网络爬虫策略流程
3.3.3 爬虫策略设计及分析
3.4 本章小结
第4章 基于Lucene检索模型的查询优化
4.1 问题描述
4.2 Lucene检索模型及评分算法
4.2.1 布尔检索模型
4.2.2 向量空间检索模型
4.2.3 默认评分算法
4.3 Rocchio算法模型
4.4 融合同义词与Rocchio算法的查询优化
4.4.1 流程描述
4.4.2 评价原则与标准
4.4.3 实验环境及数据集
4.4.4 实验设计及分析
4.5 本章小结
第5章 二手房的垂直搜索引擎的设计与实现
5.1 二手房的垂直搜索引擎的功能和目标
5.2 二手房的垂直搜索引擎的整体设计
5.2.1 整体架构设计
5.2.2 系统数据流设计
5.2.3 分布式数据库HBase架构以及表设计
5.3 网页爬虫模块的设计与实现
5.3.1 分布式爬虫框架JLiteSpider
5.3.2 爬虫服务架构设计
5.3.3 网页抓取
5.3.4 文档解析与处理模块
5.4 索引模块的设计与实现
5.4.1 数据预处理
5.4.2 IKAnalyzer中文分词器
5.4.3 索引构建
5.5 检索模块的设计与实现
5.5.1 检索过程
5.5.2 查询效果
5.6 本章小结
第6章 系统测试
6.1 开发环境
6.2 功能测试
6.2.1 网络爬虫测试
6.2.2 查询模块测试
总结与展望
致谢
参考文献
攻读硕士学位期间发表的论文及科研成果
本文编号:3168733
【文章来源】:西南交通大学四川省 211工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 主要内容和结构安排
第2章 垂直搜索引擎相关技术
2.1 搜索引擎工作原理
2.2 二手房的垂直搜索引擎的特点
2.2.1 垂直搜索引擎的特点
2.2.2 二手房信息的特点
2.3 网络爬虫技术
2.3.1 主题爬虫架构
2.3.2 网络爬虫策略
2.4 中文分词技术
2.4.1 中文分词概述
2.4.2 中文分词基本算法
2.5 非关系型数据库HBase
2.5.1 HBase概述
2.5.2 HBase特性
2.5.3 HBase集群架构
2.6 全文检索框架Lucene
2.6.1 Lucene概述
2.6.2 Lucene系统结构
2.6.3 Lucene索引
2.7 本章小结
第3章 二手房的主题网络爬虫策略设计
3.1 基于网页内容的网络爬虫策略
3.1.1 Fish-Search算法
3.1.2 Shark-Search算法
3.2 内容块相似度
3.2.1 网页分块技术
3.2.2 主题相似度算法
3.3 二手房的网络爬虫策略
3.3.1 链接以及网页相似度算法
3.3.2 网络爬虫策略流程
3.3.3 爬虫策略设计及分析
3.4 本章小结
第4章 基于Lucene检索模型的查询优化
4.1 问题描述
4.2 Lucene检索模型及评分算法
4.2.1 布尔检索模型
4.2.2 向量空间检索模型
4.2.3 默认评分算法
4.3 Rocchio算法模型
4.4 融合同义词与Rocchio算法的查询优化
4.4.1 流程描述
4.4.2 评价原则与标准
4.4.3 实验环境及数据集
4.4.4 实验设计及分析
4.5 本章小结
第5章 二手房的垂直搜索引擎的设计与实现
5.1 二手房的垂直搜索引擎的功能和目标
5.2 二手房的垂直搜索引擎的整体设计
5.2.1 整体架构设计
5.2.2 系统数据流设计
5.2.3 分布式数据库HBase架构以及表设计
5.3 网页爬虫模块的设计与实现
5.3.1 分布式爬虫框架JLiteSpider
5.3.2 爬虫服务架构设计
5.3.3 网页抓取
5.3.4 文档解析与处理模块
5.4 索引模块的设计与实现
5.4.1 数据预处理
5.4.2 IKAnalyzer中文分词器
5.4.3 索引构建
5.5 检索模块的设计与实现
5.5.1 检索过程
5.5.2 查询效果
5.6 本章小结
第6章 系统测试
6.1 开发环境
6.2 功能测试
6.2.1 网络爬虫测试
6.2.2 查询模块测试
总结与展望
致谢
参考文献
攻读硕士学位期间发表的论文及科研成果
本文编号:3168733
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3168733.html