木材垂直搜索引擎设计与实现
发布时间:2021-10-26 14:43
互联网上丰富的信息资源给人们的工作和生活带来巨大效益和便利的同时,也带来了巨大的信息冗余。我们在使用传统的通用搜索引擎时,经常会遇到这样的问题,为了搜索到一些专业的基础知识,不得不在众多的网站中,花费大量的时间去寻找,而垂直搜索引擎的出现为解决这类问题提供了很好的方法。本文对垂直搜索的主题爬虫设计和主题词库建立进行了研究,并基于这些技术设计实现了一个木材垂直搜索引擎。本论文首先介绍了搜索引擎的历史、现状、面临的问题,以及垂直搜索引擎的优势和现状;在了解搜索引擎结构、整体工作流程的基础上,分析了垂直搜索实现的关键技术,重点探讨了基于Shark算法的主题爬虫技术和主题词库建立。其次,基于木材行业,采用从专业书籍提取和领域专家建议的方式构建了一个木材主题词库,为后续的分词,主题相关性判断、建立索引提供了支持。接着,设计并实现了一个木材垂直搜索引擎,给出了系统的总体结构图。整个系统的实现采用了定制和扩展网络爬虫Heritrix来抓取木材主题相关的网页信息,利用Lucene这个开源的搜索引擎框架为系统提供快速、全面的全文索引和检索服务等一系列技术最后,对系统进行测试,将搜索结果与Google、百...
【文章来源】:北京林业大学北京市 211工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
目录
1 引言
1.1 搜索引擎概述
1.1.1 搜索引擎发展史
1.1.2 搜索引擎的分类
1.1.3 搜索引擎现状
1.1.4 搜索引擎面临的问题
1.2 垂直搜索引擎概述
1.2.1 垂直搜索引擎的定义
1.2.2 垂直搜索引擎的优势
1.2.3 垂直搜索引擎研究现状
1.3 选题的目的和意义
1.4 论文组织结构
2 搜索引擎的结构及开源框架
2.1 搜索引擎结构
2.1.1 搜索器
2.1.2 索引器
2.1.3 检索器
2.1.4 用户接口
2.1.5 垂直搜索引擎结构
2.2 网络爬虫
2.2.1 网络爬虫概述
2.2.2 开源网络爬虫
2.3 开源搜索引擎框架Lucene
2.3.1 Lucene简介
2.3.2 Lucene结构
3 垂直搜索关键技术分析
3.1 主题爬虫技术
3.1.1 基于Web链接分析的算法
3.1.2 基于文本内容的算法
3.1.3 基于本体的算法
3.1.4 本文的算法
3.2 主题词库构建
3.2.1 基于关键词的主题表示方法
3.2.2 基于本体的主题表示方法
3.2.3 木材主题词库构建
3.3 预处理技术
3.4 分词技术
3.4.1 基于字符串匹配的分词
3.4.2 基于概率统计的分词
3.5 索引技术
3.5.1 索引建立
3.5.2 主题相关度排序
4 木材垂直搜索引擎的实现
4.1 系统结构和功能
4.1.1 系统结构
4.1.2 系统功能
4.2 木材主题信息采集实现
4.2.1 主题爬虫实现
4.2.2 主题词库的建立
4.2.3 预处理实现
4.3 索引的实现
4.3.1 索引建立准备
4.3.2 索引数据库实现
4.4 检索的实现
4.4.1 检索结构设计
4.4.2 检索实现
4.5 实验结果和分析
5 结论与展望
5.1 结论
5.2 展望
参考文献
个人简介
导师简介
致谢
【参考文献】:
期刊论文
[1]基于Shark-Search和Hits算法的主题爬虫研究[J]. 罗林波,陈绮,吴清秀. 计算机技术与发展. 2010(11)
[2]一种改进Shark-Search的多媒体主题搜索算法[J]. 杨仁广,宋宇,孟祥增. 计算机工程与应用. 2010(14)
[3]基于本体的主题网络爬虫设计[J]. 戚欣. 武汉理工大学学报. 2009(03)
[4]基于概率的PageRank改进算法[J]. 林泓,刘朋,李晶晶,龙振海. 武汉理工大学学报. 2009(03)
[5]基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J]. 白坤,耿国华. 计算机应用与软件. 2009(01)
[6]基于领域本体的主题信息采集方法[J]. 郑国良,叶飞跃,林国俊,耿冬. 计算机应用. 2008(12)
[7]主题爬虫的搜索策略研究[J]. 刘汉兴,刘财兴. 计算机工程与设计. 2008(12)
[8]基于本体的主题爬虫的设计与实现[J]. 杨贞,杜习英. 科技情报开发与经济. 2008(02)
[9]基于网页分块的Shark-Search算法[J]. 陈军,陈竹敏. 山东大学学报(理学版). 2007(09)
[10]基于PageRank和锚文本的网页排序研究[J]. 刘菁菁,林鸿飞,赵晶. 计算机工程与应用. 2007(10)
硕士论文
[1]林业主题搜索引擎的设计与实现[D]. 郭艳芬.北京林业大学 2011
[2]基于领域本体的主题爬虫研究及实现[D]. 林碧霞.西南交通大学 2010
[3]面向汽车主题的垂直搜索引擎研究与实现[D]. 张楠.西南交通大学 2010
[4]基于内容的个性化Web信息检索系统的设计与实现[D]. 曹铁峰.吉林大学 2010
[5]一种应用于搜索引擎的文本聚类算法[D]. 蔡岳.北京林业大学 2010
[6]垂直搜索引擎的研究与设计[D]. 李副铭.电子科技大学 2009
[7]垂直搜索引擎的研究与实现[D]. 肖亮.北京交通大学 2008
[8]垂直搜索引擎若干关键技术的研究[D]. 王晓伟.浙江大学 2007
[9]基于Lucene面向主题搜索引擎的研究与设计[D]. 姜华.华东师范大学 2007
[10]林业主题搜索引擎研究[D]. 曹红.北京林业大学 2005
本文编号:3459691
【文章来源】:北京林业大学北京市 211工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
目录
1 引言
1.1 搜索引擎概述
1.1.1 搜索引擎发展史
1.1.2 搜索引擎的分类
1.1.3 搜索引擎现状
1.1.4 搜索引擎面临的问题
1.2 垂直搜索引擎概述
1.2.1 垂直搜索引擎的定义
1.2.2 垂直搜索引擎的优势
1.2.3 垂直搜索引擎研究现状
1.3 选题的目的和意义
1.4 论文组织结构
2 搜索引擎的结构及开源框架
2.1 搜索引擎结构
2.1.1 搜索器
2.1.2 索引器
2.1.3 检索器
2.1.4 用户接口
2.1.5 垂直搜索引擎结构
2.2 网络爬虫
2.2.1 网络爬虫概述
2.2.2 开源网络爬虫
2.3 开源搜索引擎框架Lucene
2.3.1 Lucene简介
2.3.2 Lucene结构
3 垂直搜索关键技术分析
3.1 主题爬虫技术
3.1.1 基于Web链接分析的算法
3.1.2 基于文本内容的算法
3.1.3 基于本体的算法
3.1.4 本文的算法
3.2 主题词库构建
3.2.1 基于关键词的主题表示方法
3.2.2 基于本体的主题表示方法
3.2.3 木材主题词库构建
3.3 预处理技术
3.4 分词技术
3.4.1 基于字符串匹配的分词
3.4.2 基于概率统计的分词
3.5 索引技术
3.5.1 索引建立
3.5.2 主题相关度排序
4 木材垂直搜索引擎的实现
4.1 系统结构和功能
4.1.1 系统结构
4.1.2 系统功能
4.2 木材主题信息采集实现
4.2.1 主题爬虫实现
4.2.2 主题词库的建立
4.2.3 预处理实现
4.3 索引的实现
4.3.1 索引建立准备
4.3.2 索引数据库实现
4.4 检索的实现
4.4.1 检索结构设计
4.4.2 检索实现
4.5 实验结果和分析
5 结论与展望
5.1 结论
5.2 展望
参考文献
个人简介
导师简介
致谢
【参考文献】:
期刊论文
[1]基于Shark-Search和Hits算法的主题爬虫研究[J]. 罗林波,陈绮,吴清秀. 计算机技术与发展. 2010(11)
[2]一种改进Shark-Search的多媒体主题搜索算法[J]. 杨仁广,宋宇,孟祥增. 计算机工程与应用. 2010(14)
[3]基于本体的主题网络爬虫设计[J]. 戚欣. 武汉理工大学学报. 2009(03)
[4]基于概率的PageRank改进算法[J]. 林泓,刘朋,李晶晶,龙振海. 武汉理工大学学报. 2009(03)
[5]基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J]. 白坤,耿国华. 计算机应用与软件. 2009(01)
[6]基于领域本体的主题信息采集方法[J]. 郑国良,叶飞跃,林国俊,耿冬. 计算机应用. 2008(12)
[7]主题爬虫的搜索策略研究[J]. 刘汉兴,刘财兴. 计算机工程与设计. 2008(12)
[8]基于本体的主题爬虫的设计与实现[J]. 杨贞,杜习英. 科技情报开发与经济. 2008(02)
[9]基于网页分块的Shark-Search算法[J]. 陈军,陈竹敏. 山东大学学报(理学版). 2007(09)
[10]基于PageRank和锚文本的网页排序研究[J]. 刘菁菁,林鸿飞,赵晶. 计算机工程与应用. 2007(10)
硕士论文
[1]林业主题搜索引擎的设计与实现[D]. 郭艳芬.北京林业大学 2011
[2]基于领域本体的主题爬虫研究及实现[D]. 林碧霞.西南交通大学 2010
[3]面向汽车主题的垂直搜索引擎研究与实现[D]. 张楠.西南交通大学 2010
[4]基于内容的个性化Web信息检索系统的设计与实现[D]. 曹铁峰.吉林大学 2010
[5]一种应用于搜索引擎的文本聚类算法[D]. 蔡岳.北京林业大学 2010
[6]垂直搜索引擎的研究与设计[D]. 李副铭.电子科技大学 2009
[7]垂直搜索引擎的研究与实现[D]. 肖亮.北京交通大学 2008
[8]垂直搜索引擎若干关键技术的研究[D]. 王晓伟.浙江大学 2007
[9]基于Lucene面向主题搜索引擎的研究与设计[D]. 姜华.华东师范大学 2007
[10]林业主题搜索引擎研究[D]. 曹红.北京林业大学 2005
本文编号:3459691
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3459691.html