基于Map/Reduce的分布式智能搜索引擎框架研究
发布时间:2021-04-21 19:19
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了互联网所蕴藏的巨大商机。互联网离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。如今互联网中的信息每天以指数级的数量增长,面对海量数据的处理和存储,传统的集中式搜索引擎显得无能为力。另外传统搜索引擎系统一般都采用关键词匹配模式,无法理解用户搜索意图,使得用户在互联网上搜索自己真正需要的信息很困难。因此搜索引擎的分布式智能化是未来发展的趋势。本文从研究和设计的角度出发,对分布式智能搜索引擎的相关理论和技术进行了详细的分析和讨论,将基于Map/Reduce的分布式智能搜索引擎框架研究分为三个层次,即分布式并行计算理论方法研究、搜索引擎原理的研究以及基于分布式的智能搜索引擎研究。论文主要研究的内容如下:论述了目前搜索引擎的国内外发展现状、存在的问题以及发展趋势;分析了搜索引擎的工作原理...
【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校
【文章页数】:120 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 选题的背景与研究意义
1.2 搜索引擎研究综述
1.2.1 国内外搜索引擎研究的背景和进展
1.2.2 传统搜索引擎存在的问题
1.2.3 搜索引擎的分布式智能化趋势
1.3 研究的内容和方法
1.3.1 研究的内容
1.3.2 研究的方法
第2章 搜索引擎的原理和实现技术
2.1 搜索引擎原理及相关关键技术
2.1.1 搜索引擎理论基础
2.1.2 搜索引擎工作原理
2.1.3 分词原理
2.1.4 索引组织方法
2.2 面向搜索引擎的分布式计算技术
2.2.1 分布式计算的工作原理
2.2.2 网格计算
2.2.3 云计算
2.2.4 Map/Reduce计算模型
第3章 面向智能搜索引擎的Lucene、Hadoop的理论与技术研究
3.1 面向智能搜索引擎Lucene的原理研究
3.1.1 Lucene系统的结构组织
3.1.2 Lucene数据流分析
3.1.3 Lucene索引的数据结构
3.2 面向智能搜索引擎Hadoop的框架研究
3.2.1 Hadoop基本结构
3.2.2 HDFS
3.2.3 Hadoop中的Map/Reduce实现
第4章 IEBSou分布式智能搜索引擎研究
4.1 分布式智能槽索的需求
4.2 IEBSou结构模型研究
4.3 信息采集原理
4.3.1 Robots Exclusion Protocol
4.3.2 网页抓取
4.3.3 文档解析
4.3.4 网页消重
4.4 语言分析技术
4.4.1 新词识别算法
4.4.2 专有名词识别算法
4.5 IEBSou索引理论
4.5.1 倒排索引
4.5.2 概念库构建
4.6 IEBSou检索功能设计
第5章 IEBSou分布式智能搜索引擎的实现
5.1 IEBSou环境搭建
5.2 IEBSou的Map/Reduce基础平台
5.3 信息采集模块的实现
5.3.1 基于Map/Reduce基础平台的设计
5.3.2 文档解析框架
5.4 语言分析模块的实现
5.4.1 分词词典的设计
5.4.2 IEBChinese Analyzer的实现
5.5 索引模块的构建
5.6 检索模块与EC语义词典的集成
5.7 IEBSou运行界面
第6章 全文总结与研究展望
6.1 全文总结
6.1.1 全文主要内容
6.1.2 主要创新点
6.2 研究展望
参考文献
在读期间参加的科研项目
在读期间发表的论文
致谢
【参考文献】:
期刊论文
[1]搜索引擎技术及其发展趋势[J]. 胡双双,秦杰. 福建电脑. 2008(06)
[2]基于压缩后缀数组技术的搜索引擎[J]. 姚全珠,张楠,杨增辉,田元. 计算机工程. 2008(10)
[3]自然语言检索中的中文分词技术研究进展及应用[J]. 何莘,王琬芜. 情报科学. 2008(05)
[4]搜索引擎的过去时、现在时和将来时[J]. 王军. 兰台世界. 2008(06)
[5]试论搜索引擎的现状与发展[J]. 门凤超,苗军民. 现代情报. 2008(02)
[6]基于Map/Reduce的分布式搜索引擎研究[J]. 吴宝贵,丁振国. 现代图书情报技术. 2007(08)
[7]基于Map/Reduce的网页消重并行算法[J]. 张元丰,董守斌,张凌,陈晓志. 广西师范大学学报(自然科学版). 2007(02)
[8]主要分布式搜索引擎技术的研究[J]. 蒋建洪. 科学技术与工程. 2007(10)
[9]基于搜索引擎的中文分词评估方法[J]. 王华栋,饶培伦. 情报科学. 2007(01)
[10]一种新的基于XML的索引机制[J]. 姚全珠,丁晓剑,任雪利,张志锋. 计算机工程. 2006(15)
博士论文
[1]智能搜索引擎理论与应用研究[D]. 陈治平.湖南大学 2003
硕士论文
[1]基于P2P的分布式搜索技术研究与实现[D]. 张颖卓.成都理工大学 2008
[2]基于分布式的智能搜索引擎[D]. 姜鑫维.武汉理工大学 2006
[3]分布式网络爬虫技术的研究与实现[D]. 苏旋.哈尔滨工业大学 2006
[4]基于分词的中文文本相似度计算研究[D]. 沈斌.天津财经大学 2006
[5]智能中文搜索引擎若干关键技术的研究与实现[D]. 潘照明.浙江大学 2006
[6]基于P2P的分布式中文搜索引擎的应用研究[D]. 丁邦旭.南昌大学 2006
[7]分布式搜索引擎缓存设计及优化[D]. 王明功.北京邮电大学 2006
[8]分布式系统中的文本信息检索技术研究[D]. 刘红星.清华大学 2004
[9]基于事件框架的主题相关文档智能检索的初步研究[D]. 吴平博.清华大学 2004
[10]智能搜索引擎系统的分析设计与开发[D]. 陈魁.大连理工大学 2004
本文编号:3152338
【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校
【文章页数】:120 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 选题的背景与研究意义
1.2 搜索引擎研究综述
1.2.1 国内外搜索引擎研究的背景和进展
1.2.2 传统搜索引擎存在的问题
1.2.3 搜索引擎的分布式智能化趋势
1.3 研究的内容和方法
1.3.1 研究的内容
1.3.2 研究的方法
第2章 搜索引擎的原理和实现技术
2.1 搜索引擎原理及相关关键技术
2.1.1 搜索引擎理论基础
2.1.2 搜索引擎工作原理
2.1.3 分词原理
2.1.4 索引组织方法
2.2 面向搜索引擎的分布式计算技术
2.2.1 分布式计算的工作原理
2.2.2 网格计算
2.2.3 云计算
2.2.4 Map/Reduce计算模型
第3章 面向智能搜索引擎的Lucene、Hadoop的理论与技术研究
3.1 面向智能搜索引擎Lucene的原理研究
3.1.1 Lucene系统的结构组织
3.1.2 Lucene数据流分析
3.1.3 Lucene索引的数据结构
3.2 面向智能搜索引擎Hadoop的框架研究
3.2.1 Hadoop基本结构
3.2.2 HDFS
3.2.3 Hadoop中的Map/Reduce实现
第4章 IEBSou分布式智能搜索引擎研究
4.1 分布式智能槽索的需求
4.2 IEBSou结构模型研究
4.3 信息采集原理
4.3.1 Robots Exclusion Protocol
4.3.2 网页抓取
4.3.3 文档解析
4.3.4 网页消重
4.4 语言分析技术
4.4.1 新词识别算法
4.4.2 专有名词识别算法
4.5 IEBSou索引理论
4.5.1 倒排索引
4.5.2 概念库构建
4.6 IEBSou检索功能设计
第5章 IEBSou分布式智能搜索引擎的实现
5.1 IEBSou环境搭建
5.2 IEBSou的Map/Reduce基础平台
5.3 信息采集模块的实现
5.3.1 基于Map/Reduce基础平台的设计
5.3.2 文档解析框架
5.4 语言分析模块的实现
5.4.1 分词词典的设计
5.4.2 IEBChinese Analyzer的实现
5.5 索引模块的构建
5.6 检索模块与EC语义词典的集成
5.7 IEBSou运行界面
第6章 全文总结与研究展望
6.1 全文总结
6.1.1 全文主要内容
6.1.2 主要创新点
6.2 研究展望
参考文献
在读期间参加的科研项目
在读期间发表的论文
致谢
【参考文献】:
期刊论文
[1]搜索引擎技术及其发展趋势[J]. 胡双双,秦杰. 福建电脑. 2008(06)
[2]基于压缩后缀数组技术的搜索引擎[J]. 姚全珠,张楠,杨增辉,田元. 计算机工程. 2008(10)
[3]自然语言检索中的中文分词技术研究进展及应用[J]. 何莘,王琬芜. 情报科学. 2008(05)
[4]搜索引擎的过去时、现在时和将来时[J]. 王军. 兰台世界. 2008(06)
[5]试论搜索引擎的现状与发展[J]. 门凤超,苗军民. 现代情报. 2008(02)
[6]基于Map/Reduce的分布式搜索引擎研究[J]. 吴宝贵,丁振国. 现代图书情报技术. 2007(08)
[7]基于Map/Reduce的网页消重并行算法[J]. 张元丰,董守斌,张凌,陈晓志. 广西师范大学学报(自然科学版). 2007(02)
[8]主要分布式搜索引擎技术的研究[J]. 蒋建洪. 科学技术与工程. 2007(10)
[9]基于搜索引擎的中文分词评估方法[J]. 王华栋,饶培伦. 情报科学. 2007(01)
[10]一种新的基于XML的索引机制[J]. 姚全珠,丁晓剑,任雪利,张志锋. 计算机工程. 2006(15)
博士论文
[1]智能搜索引擎理论与应用研究[D]. 陈治平.湖南大学 2003
硕士论文
[1]基于P2P的分布式搜索技术研究与实现[D]. 张颖卓.成都理工大学 2008
[2]基于分布式的智能搜索引擎[D]. 姜鑫维.武汉理工大学 2006
[3]分布式网络爬虫技术的研究与实现[D]. 苏旋.哈尔滨工业大学 2006
[4]基于分词的中文文本相似度计算研究[D]. 沈斌.天津财经大学 2006
[5]智能中文搜索引擎若干关键技术的研究与实现[D]. 潘照明.浙江大学 2006
[6]基于P2P的分布式中文搜索引擎的应用研究[D]. 丁邦旭.南昌大学 2006
[7]分布式搜索引擎缓存设计及优化[D]. 王明功.北京邮电大学 2006
[8]分布式系统中的文本信息检索技术研究[D]. 刘红星.清华大学 2004
[9]基于事件框架的主题相关文档智能检索的初步研究[D]. 吴平博.清华大学 2004
[10]智能搜索引擎系统的分析设计与开发[D]. 陈魁.大连理工大学 2004
本文编号:3152338
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/3152338.html