基于企业深度挖掘型垂直搜索引擎的研究与应用
发布时间:2024-06-12 04:46
随着Internet的普及信息处理等高科技技术的不断发展,越来越多的企业也在广泛利用Internet技术进行数据共享等信息处理的应用,使得信息内容也正以惊人的速度增加,同时内部业务系统催生大量的复发性、多结构化的数据。在企业规模的不断扩大,数据不断累积的情况下,传统的搜索引擎自身存在信息处理的缺陷,用户只能检索到公开的网页信息,对网页查全率以及查准率过低,对于企业内部的网页则无法检索到,无法满足企业用户的检索需要。企业的运营分析层如何把正确的信息、在正确的时机提供给相应的决策层,以及决策层如何及时准确地获得必要的决策参考信息等问题将成为一个紧迫而复杂的课题。基于需求的驱动,一种基于企业深度挖掘型垂直搜索引擎的出现利用元数据的管理等技术构建一个“综合的营销平台”的数据中心,以及构筑在其上的商务智能,来管理和合理利用信息,给数据服务带来了新的解决方案,因此本文选择课题“基于企业深度挖掘型垂直搜索引擎在数据服务上的研究与应用”,提出了面向企业的搜索引擎体系架构,并将其应用到浙江中烟工业企业搜索引擎系统中,提出了浙江中烟营销搜索引擎系统框架。文章主要研究内容如下: 1)根据卷烟企业营销的状况和...
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景、意义
1.2 垂直搜索引擎的服务市场
1.2.1 搜索引擎服务市场背景
1.2.2 企业搜索引擎服务市场趋势
1.3 本文研究内容
1.4 本文组织结构
第二章 垂直搜索引擎研究
2.1 垂直搜索引擎的概述
2.2 垂直搜索引擎结构及工作原理
2.3 垂直搜索引擎的优势
2.4 构建良好深度挖掘型垂直搜索引擎的要求
2.5 本章小结
第三章 面向主题的数据采集
3.1 网络主题爬虫概述
3.1.1 网络主题爬虫定义
3.1.2 网络主题爬虫搜索策略
3.1.3 主题爬虫网页的搜集
3.2 主题相关性算法及改进
3.2.1 偏好主题 PageRank 算法
3.3 元数据管理模块
3.3.1 元数据管理
3.4 本章小结
第四章 数据的压缩索引和 HBase 云存储
4.1 数据的压缩
4.1.1 范式哈夫曼算法
4.2 压缩索引的方法
4.2.1 倒排文件压缩算法
4.3 HBase 云存储
4.3.1 引言
4.3.2 文件存储系统 HDFS
4.3.3 海量数据处理 MapReduce
4.3.4 协同服务管理 Zookeeper
4.4 本章小结
第五章 企业搜索引擎的用户查询
5.1 引言
5.2 网页信息匹配和检索
5.2.1 烟草本体词典的构建
5.2.2 中文分词技术
5.2.3 语义相似度计算
5.2.4 面向特征的网页查重删除技术
5.3 索引库的建立
5.4 检索模块
5.4.1 概率模型算法
5.4.2 检索结果的排序
5.4.3 检索结果文档摘要
5.5 检索结果的特点分析
5.6 本章总结
第六章 企业搜索引擎系统设计及实现
6.1 引言
6.2 浙江中烟营销搜索引擎系统设计
6.2.1 系统的需求分析
6.2.2 系统的总体架构
6.2.3 系统架构设计
6.3 系统开发环境
6.4 烟草领域本体构建
6.5 人机交互界面
6.6 本章总结
第七章 总结与展望
7.1 全文总结
7.2 研究展望
参考文献
致谢
攻读学位期间的研究成果
本文编号:3993250
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景、意义
1.2 垂直搜索引擎的服务市场
1.2.1 搜索引擎服务市场背景
1.2.2 企业搜索引擎服务市场趋势
1.3 本文研究内容
1.4 本文组织结构
第二章 垂直搜索引擎研究
2.1 垂直搜索引擎的概述
2.2 垂直搜索引擎结构及工作原理
2.3 垂直搜索引擎的优势
2.4 构建良好深度挖掘型垂直搜索引擎的要求
2.5 本章小结
第三章 面向主题的数据采集
3.1 网络主题爬虫概述
3.1.1 网络主题爬虫定义
3.1.2 网络主题爬虫搜索策略
3.1.3 主题爬虫网页的搜集
3.2 主题相关性算法及改进
3.2.1 偏好主题 PageRank 算法
3.3 元数据管理模块
3.3.1 元数据管理
3.4 本章小结
第四章 数据的压缩索引和 HBase 云存储
4.1 数据的压缩
4.1.1 范式哈夫曼算法
4.2 压缩索引的方法
4.2.1 倒排文件压缩算法
4.3 HBase 云存储
4.3.1 引言
4.3.2 文件存储系统 HDFS
4.3.3 海量数据处理 MapReduce
4.3.4 协同服务管理 Zookeeper
4.4 本章小结
第五章 企业搜索引擎的用户查询
5.1 引言
5.2 网页信息匹配和检索
5.2.1 烟草本体词典的构建
5.2.2 中文分词技术
5.2.3 语义相似度计算
5.2.4 面向特征的网页查重删除技术
5.3 索引库的建立
5.4 检索模块
5.4.1 概率模型算法
5.4.2 检索结果的排序
5.4.3 检索结果文档摘要
5.5 检索结果的特点分析
5.6 本章总结
第六章 企业搜索引擎系统设计及实现
6.1 引言
6.2 浙江中烟营销搜索引擎系统设计
6.2.1 系统的需求分析
6.2.2 系统的总体架构
6.2.3 系统架构设计
6.3 系统开发环境
6.4 烟草领域本体构建
6.5 人机交互界面
6.6 本章总结
第七章 总结与展望
7.1 全文总结
7.2 研究展望
参考文献
致谢
攻读学位期间的研究成果
本文编号:3993250
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3993250.html