基于协同过滤的个性化垂直搜索引擎的研究与设计
发布时间:2020-10-13 18:18
网络环境的变化和互联网技术迅猛发展带来的信息爆炸,使得实现对某一专题领域信息精确查找的垂直搜索引擎获得迅速发展。当下大部分搜索引擎缺乏主动性,在搜索的过程中不能考虑用户的兴趣,不能快速精准的查找用户所关心的信息。本文设计并实现在垂直搜索引擎环境中提供个性化服务的系统。并使用软件工程方法对系统进行需求分析,系统设计,完成系统的实现。 首先研究当下垂直搜索引擎的发展前景,分析传统搜索引擎三个核心组成部分的功能原理,并结合当下的网络环境分析了用户的需求。并确定系统的开发的目标,设计了系统的整体架构,进而确定系统的主要功能,用户基本信息与用户兴趣管理,专题内容的抓取,基本搜索功能与相关信息的推荐功能,并确定了系统中关键数据流的转换。同时抽象出系统的角色与用例,对用例进行详细的说明。 然后探讨了基于协同过滤的推荐引擎的基本原理和方法,并基于协同过滤思想,结合中文分词建立基于兴趣的用户模型,通过聚类算法对兴趣处理生成用户兴趣类别,并根据推荐内容重新设计了Lucene提供的搜索结果排序评分算法。将推荐系统整合到垂直搜索引擎中,实现个性化搜索,从而达到提高信息的查找精确率的目的。 考虑到实现协同过滤推荐用户个性化内容的用户模型设计,在系统设计部分对所需要存储的数据设计了的数据库表。分析搜索引擎的工作原理、关键技术和系统架构的研究,设计了基于协同过滤技术的搜索引擎框架。 最后分析当下开源框架Lucene、Nutch、Mahout、IkAnalyzer,整合现有资源做系统原型,提高中文环境下的搜索结果的准确性,通过研究和分析网络爬虫的工作原理和中文分词技术,实现对专题信息的抓取,修改开源项目中部分接口,实现本文所设计的基于协同过滤的个性化垂直搜索引擎,并对系统整个系统进行测试。
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2013
【中图分类】:TP391.3
【部分图文】:
所以如果要快速的搜索到更客观和体现不同用户需求的内容,必须设计专业化、直的非商业性的搜索引擎。不同类型的用户有各种不同的兴趣,有各自关注的资讯,何兼顾将兴趣兼顾到信息的搜索领域中,垂直搜索的研发与实现成为研究的热点,并渐在行搜索引擎市场占据一定的份额,Web 搜索将日益垂直化和个性化[3]。1.2 搜索引擎技术综述信息的检索的过程如图 1.1,首先使用爬虫对网络资源进行遍历,将这些资源下载本地保存,并对这些资源进行预处理,比如为网页加文件编号,形成所有用户可能检的信息资源,文本库,并对文本库的进行处理建立文本模型。然后根据文本模型建立引,以加快信息检索的速度[4]。搜索的实现,在提供了搜索内容的前提下,搜索引擎负分析搜索关键词,并通过索引查找对应的网页,所有返回的搜索结果需要根据一定的滤规则或者排序策略返回给终端用户。本节将分别介绍用于实现以上功能的关键模块。
图 2.1 个性化搜索工作流程系统模块划分把整个系统分成两个大的功能模块实现,用户信息管理模块与系管理模块的各个功能模块的划分如图 2.2 所示。显示给用户的页面结果趣向量
.用户管理模块。用于提供用户注册的功能,管理用户安全的登陆与退出,并提系统反馈个人的兴趣信息;.系统查询模块。为系统后台将用户相关信息转换成用户兴趣向量提供接口,进理;.系统管理模块。维护系统正常运行的必要功能,查看系统的运行状态等。统的另一个是模块是实现本系统核心功能的检索模块,具体的模块划分如图 2含系统四大核心功能。
【参考文献】
本文编号:2839529
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2013
【中图分类】:TP391.3
【部分图文】:
所以如果要快速的搜索到更客观和体现不同用户需求的内容,必须设计专业化、直的非商业性的搜索引擎。不同类型的用户有各种不同的兴趣,有各自关注的资讯,何兼顾将兴趣兼顾到信息的搜索领域中,垂直搜索的研发与实现成为研究的热点,并渐在行搜索引擎市场占据一定的份额,Web 搜索将日益垂直化和个性化[3]。1.2 搜索引擎技术综述信息的检索的过程如图 1.1,首先使用爬虫对网络资源进行遍历,将这些资源下载本地保存,并对这些资源进行预处理,比如为网页加文件编号,形成所有用户可能检的信息资源,文本库,并对文本库的进行处理建立文本模型。然后根据文本模型建立引,以加快信息检索的速度[4]。搜索的实现,在提供了搜索内容的前提下,搜索引擎负分析搜索关键词,并通过索引查找对应的网页,所有返回的搜索结果需要根据一定的滤规则或者排序策略返回给终端用户。本节将分别介绍用于实现以上功能的关键模块。
图 2.1 个性化搜索工作流程系统模块划分把整个系统分成两个大的功能模块实现,用户信息管理模块与系管理模块的各个功能模块的划分如图 2.2 所示。显示给用户的页面结果趣向量
.用户管理模块。用于提供用户注册的功能,管理用户安全的登陆与退出,并提系统反馈个人的兴趣信息;.系统查询模块。为系统后台将用户相关信息转换成用户兴趣向量提供接口,进理;.系统管理模块。维护系统正常运行的必要功能,查看系统的运行状态等。统的另一个是模块是实现本系统核心功能的检索模块,具体的模块划分如图 2含系统四大核心功能。
【参考文献】
相关期刊论文 前10条
1 任丽芸;杨武;唐蓉;;搜索引擎网页排序算法研究综述[J];电脑与电信;2010年05期
2 罗武;方逵;朱兴辉;;网络搜索引擎排序算法研究进展[J];湖南农业科学;2010年07期
3 邢春晓;高凤荣;战思南;周立柱;;适应用户兴趣变化的协同过滤推荐算法[J];计算机研究与发展;2007年02期
4 李华,何茜,吴中福;基于Web的个性化学习系统研究[J];计算机工程与应用;2002年13期
5 曲红亭,申瑞民;基于数据挖掘的个性化学习导航系统的设计与实现[J];计算机工程;2003年08期
6 周登朋;谢康林;;Lucene搜索引擎[J];计算机工程;2007年18期
7 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期
8 房志峰;;中文搜索引擎中的分词技术研究[J];科学技术与工程;2008年09期
9 曾春,邢春晓,周立柱;个性化服务技术综述[J];软件学报;2002年10期
10 邓爱林,朱扬勇,施伯乐;基于项目评分预测的协同过滤推荐算法[J];软件学报;2003年09期
相关硕士学位论文 前2条
1 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
2 袁先虎;基于混合用户模型的协同过滤推荐算法研究[D];重庆大学;2010年
本文编号:2839529
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2839529.html