基于查询偏好的个性化搜索引擎的研究与实现
本文关键词: 搜索引擎 查询推荐 朴素贝叶斯 点击预测 相似计算 出处:《江南大学》2016年硕士论文 论文类型:学位论文
【摘要】:如今,高速发展的因特网为用户的生活提供便捷的同时,也不可避免的出现让用户难以获得所需信息的烦恼。对此,搜索引擎的产生为用户查询信息的方式带来了极大改变。作为一种常用的网络信息检索方式,搜索引擎已经发展为每个用户上网都离不开的重要工具,它的出现得到人们的广泛关注和使用。然而,传统信息检索工具也存在诸多不足之处。主要因为传统搜索引擎采用关键词匹配的全文检索方法,缺乏有效的对用户本身个性化信息的挖掘,从而不能有针对性的为用户提供个性化查询服务。所以在考虑和分析不同用户的信息需求的基础上,个性化搜索系统应运而生,它的出现能够在一定程度上满足用户的个性化信息需求。本文借鉴了电子商务网站中广泛采用的信息推荐技术,提出了较为可行的个性化信息推荐方案,即在用户搜索中使用查询推荐技术,以实现个性化搜索推荐。相关研究表明,用户的查询点击历史反应了用户的搜索习惯和查询偏好,所以本文对用户的历史查询数据进行深入分析,提出了用户点击模型,预测用户查询相关性并最终给出推荐。文中的研究主要集中在查询推荐上,首先根据用户的搜索点击历史数据,使用朴素贝叶斯理论训练出一个用户点击模型,根据这个点击模型对用户当前提交的查询进行分析,预测查询与链接的点击率,然后根据反向点击图模型将预测的值分配给相应查询,据此对查询进行相关度排序,将前k个最高预测值的查询推荐给用户。其次,本文在单个用户历史数据的基础上,对其进行补充,提出协同相似计算的用户查询推荐技术,将具有相同搜索行为的用户数据汇集到目标用户。该方法可以解决目标用户数据量不足的情况,另外还可以为用户提供一定的查询推荐的扩展性和新颖性。在用户的相似计算中,将每个用户的历史查询日志整合为一篇文档,使用余弦向量模型计算文档间的相似性;再使用推荐系统中的协同推荐理论,将用户对每个链接的点击频率比作为相关偏好评分,基于这些点击评分,使用改进后的欧氏距离计算用户间的相似度;最后将两种相似计算方法采用线性加权的方式整合,计算出目标用户的相似用户集,最终将采用点击模型进行查询推荐。本文最后基于查询推荐的分析,实现了一个简易的个性化搜索引擎系统。在本系统中,将相关查询推荐算法引入到了系统中,并将用户点击模型应用到网页排序上,实现了个性化的查询推荐和网页排序功能。
[Abstract]:Today, the rapid development of the Internet not only provides convenience for users, but also inevitably makes it difficult for users to obtain the information they need. The generation of search engines has brought great changes to the way users query information. As a common way of information retrieval, search engine has developed into an important tool that every user can not access the Internet without. However, traditional information retrieval tools also have many shortcomings, mainly because traditional search engines use keyword matching full-text retrieval methods. There is a lack of effective mining of personalized information for users, so it can not provide personalized query services for users. Therefore, on the basis of considering and analyzing the information needs of different users, the personalized search system emerges as the times require. It can meet the individual information needs of users to some extent. This paper draws lessons from the widely used information recommendation technology in e-commerce websites, and puts forward a more feasible personalized information recommendation scheme. In other words, query recommendation technology is used in user search to realize personalized search recommendation. Related research shows that the user's query click history reflects the user's search habit and preference. So this paper deeply analyzes the historical query data of users, puts forward the user click model, predicts the relevance of user query and finally gives the recommendation. The research in this paper is mainly focused on query recommendation. First of all, a user click model is trained by using naive Bayes theory according to the user's search click history data. According to this click model, the query submitted by the user is analyzed, and the click rate of the query and link is predicted. Then, according to the reverse click graph model, the predicted values are assigned to the corresponding query, according to which the correlation degree of the query is sorted, and the first k queries with the highest predictive value are recommended to the user. Secondly, based on the historical data of a single user, In addition, a recommendation technology of user query based on collaborative similar computing is proposed, which gathers user data with the same search behavior to target user. This method can solve the problem that the data quantity of target user is insufficient. In addition, it can provide users with certain expansibility and novelty of query recommendation. In the similarity calculation of users, the history query log of each user is integrated into a document, and the similarity between documents is calculated by using cosine vector model. Then using the cooperative recommendation theory in the recommendation system, the user's click frequency ratio to each link is taken as the relevant preference score. Based on these click scores, the improved Euclidean distance is used to calculate the similarity between users. Finally, the two similar computing methods are integrated in a linear weighted way, and the similar user sets of target users are calculated. Finally, the click model is used for query recommendation. Finally, based on the analysis of query recommendation, A simple personalized search engine system is implemented. In this system, the related query recommendation algorithm is introduced into the system, and the user click model is applied to the web page sorting, and the personalized query recommendation and web page sorting functions are realized.
【学位授予单位】:江南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期
2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期
3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期
4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期
5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期
7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期
8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期
9 秦永平;网页信息共享技术[J];计算机应用;2000年02期
10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期
相关会议论文 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
相关重要报纸文章 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
相关博士学位论文 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
相关硕士学位论文 前10条
1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年
2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年
3 张W,
本文编号:1529469
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1529469.html