基于Nutch的就业垂直搜索引擎研究
发布时间:2023-04-20 22:44
针对通用搜索引擎专业性不够、查准率较低的问题,基于Nutch开源搜索引擎,采用基于本地词库和动态加载词库的正向迭代最细粒度切分算法实现中文分词。基于特征词和元数据标签的空间向量模型实现就业领域主题相关性判定,基于MapReduce引入网页链入链接权重因子和时间衰减因子改进LinkRank排序算法等对Nutch进行二次开发,并在网页信息抓取和过滤、就业信息搜索和特征词推荐等环节引入就业领域本体信息,采用Java框架技术对用户查询接口进行了二次开发,提供了如关键字智能提醒、定制爬虫、二次查找、设定查询结果日期、订阅查询等扩展查询接口,设计并实现了基于Nutch的就业垂直搜索引擎。实验结果表明,基于Nutch的就业垂直搜索引擎具有较高的查准率,可以满足用户专业检索的需求。
【文章页数】:5 页
【文章目录】:
0 引言
1 系统框架
2 系统关键技术
2.1 中文分词
2.2 主题相关性判别
2.3 检索结果排序
2.3.1 基于MapReduce的LinkRank并行排序算法
2.3.2 网页的就业相关度计算
2.3.3改进Nutch原有结果排序
2.4 用户查询接口扩展
2.4.1 关键字智能提醒
2.4.2 定制爬虫
2.4.3 搜索辅助接口
3 测试与分析
3.1 测试数据准备
3.2 测试及结果分析
3.2.1 主题相关性分析
3.2.2 不同搜索引擎的比较
4 结束语
本文编号:3795305
【文章页数】:5 页
【文章目录】:
0 引言
1 系统框架
2 系统关键技术
2.1 中文分词
2.2 主题相关性判别
2.3 检索结果排序
2.3.1 基于MapReduce的LinkRank并行排序算法
2.3.2 网页的就业相关度计算
2.3.3改进Nutch原有结果排序
2.4 用户查询接口扩展
2.4.1 关键字智能提醒
2.4.2 定制爬虫
2.4.3 搜索辅助接口
3 测试与分析
3.1 测试数据准备
3.2 测试及结果分析
3.2.1 主题相关性分析
3.2.2 不同搜索引擎的比较
4 结束语
本文编号:3795305
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3795305.html