当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Nutch的农业信息垂直搜索引擎的研究与实现

发布时间:2023-08-26 04:26
  Google公司于1998年成立以来至今,迅速占领了全球大部分的搜索引擎领域市场,其发展之迅猛,让全人类震惊。随着互联网的快速发展,无数的搜索引擎服务接踵而至。从早期外国的Yahoo、 AltaVista、Google,到现今国内的百度、搜狗、搜搜、有道等,各大互联网巨头都推出了各种各样的搜索引擎服务。与此同时,随着互联网上的网络信息的爆炸式增长,大部分的网站都需要为自己添加高效的搜索功能,给予用户及时、正确的信息。不仅是门户类的全文搜索,针对企业的各种文档信息检索的应用以及专门针对于各个行业的专业的垂直搜索引擎的需求也在直线上升。 当人们发现搜索技术无法满足用户日益增长的需求,开始探索搜索引擎的技术。各种探讨搜索引擎技术的文章,书籍,期刊等层出不穷,无数的技术专家投身于搜索引擎开发,一时间,搜索技术风靡全球。搜索引擎技术是一种多领域学科交互的高端技术,它包含了许多学术领域的先进的思想。它包括了编程语言,自然语言,机器语言,人工智能,数学,统计学等众多领域。因此,设计开发一款优秀的搜索引擎产品绝非易事。 我国是农业大国,全国有8亿左右的农民,农业是我国的支柱企业,但是农业信息化的建设却...

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 引言
    1.1 课题背景
    1.2 课题任务
    1.3 论文结构
第二章 搜索引擎概述
    2.1 搜索引擎概念
        2.1.1 信息检索
        2.1.2 搜索引擎的概念
        2.1.3 搜索引擎的使用
        2.1.4 搜索引擎发展历史
    2.2 搜索引擎分类
        2.2.1 按照工作方式分类
        2.2.2 按照领域范围分类
        2.2.3 按照信息类型分类
    2.3 主流搜索引擎
        2.3.1 全球著名搜索引擎
        2.3.2 中文搜索引擎的发展历史
        2.3.3 其他细化搜索引擎
    2.4 搜索引擎评价原则
    2.5 未来搜索技术前瞻
        2.5.1 现状存在问题
        2.5.2 未来发展趋势
    2.6 搜索引擎原理
    2.7 开源搜索引擎NUTCH
        2.7.1 Nutch简介
        2.7.2 Nutch架构
        2.7.3 Nutch命令
        2.7.4 Nutch存储形式
    2.8 本章小结
第三章 基于NUTCH的农业信息垂直搜索引擎需求分析
    3.1 农业搜索的现状分析
    3.2 农业搜索的特点与功能需求
    3.3 基于NUTCH构建农业信息搜索引擎的可行性分析
第四章 基于NUTCH的农业信息垂直搜索引擎设计
    4.1 系统运行环境
    4.2 系统总体架构
    4.3 构建农业领域本体
        4.3.1 本体概念
        4.3.2 构建本体语言工具
        4.3.3 构建农业领域本体
        4.3.4 农业领域本体的推理
        4.3.5 农业领域本体的应用
    4.4 网络爬虫设计
        4.4.1 网络爬虫策略分析
        4.4.2 网络爬虫功能设计
        4.4.3 网络爬虫结构
        4.4.4 网络爬虫效率优化
        4.4.5 网络爬虫的黑洞
        4.4.6 主题爬虫
        4.4.7 网络爬虫访问规范
    4.5 文档分析与中文分词设计
        4.5.1 文档分析功能需求
        4.5.2 文档分析方法
        4.5.3 文档分析结构
        4.5.4 中文分词方法
        4.5.5 Lucene中文分词
        4.5.6 非结构化文本处理
    4.6 文档索引设计
        4.6.1 索引功能需求
        4.6.2 文档索引方法
        4.6.3 实现倒排索引
        4.6.4 选择索引类型
    4.7 文档检索设计
        4.7.1 检索功能需求
        4.7.2 检索基本流程
        4.7.3 查询结果显示
        4.7.4 高性能查询
        4.7.5 搜索缓存设计
        4.7.6 利用“语义指纹”排除重复文档
        4.7.7 Simhash重排
    4.8 搜索引擎结果排序设计
        4.8.1 传统检索排序技术
        4.8.2 搜索引擎相关性排序设计
        4.8.3 链接分析PageRank
        4.8.4 链接分析HITS
        4.8.5 PageRank与HITS的比较
        4.8.6 搜索引擎排序流程
    4.9 分布式检索设计
        4.9.1 MapReduce系统介绍
        4.9.2 Nutch分布式检索
    4.10 本章小结
第五章 基于NUTCH的农业信息垂直搜索引擎的实现
    5.1 构建农业领域本题的实现
    5.2 农业关键词管理的实现
        5.2.1 农业关键词策略
        5.2.2 农业关键词存储设计
        5.2.3 农业关键词管理程序
    5.3 农业资源发现的实现
    5.4 农业信息下载的实现
    5.5 网页信息分析的实现
        5.5.1 网页内容解析
        5.5.2 创建索引
    5.6 农业信息检索的实现
        5.6.1 检索后台实现
        5.6.2 检索前台实现
    5.7 本章小结
第六章 结束语
    6.1 论文工作总结
    6.2 问题和展望
参考文献
致谢



本文编号:3843951

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3843951.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d8c5a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com