当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于多维用户特征建模的个性化社交搜索引擎的设计与实现

发布时间:2020-07-29 17:22
【摘要】:目前,搜索引擎已成为网民获取信息的一个重要途径。然而随着WEB2.0的迅速发展以及各类社交网站的日益崛起,传统搜索引擎的一些缺陷暴露了出来。一方面,各种Web2.0网站和社交网站拥有海量的用户数据,但传统搜索引擎却无法支持对其检索。另一方面,不同的用户因为职业、学历、兴趣偏好及社交关系各不相同,对搜索结果的期待也往往各不相同,因此对搜索引擎的个性化有很迫切需求。 鉴于此,本文设计并实现了一个个性化社交搜索引擎,该系统以开放的社交网络为数据来源,通过分析丰富的用户特征及社交关系来改善传统搜索引擎的结果,旨在把对用户最重要、用户最感兴趣的结果排在最重要位置。 用户建模是个性化社交搜索的前提和基础,本文根据真实的社交网络新浪微博的数据特征,提出了一种多维度多层次的用户模型,包括用户影响力模型、用户社交关系模型及用户兴趣模型等三个子模型,全面地描述了社交网络中的用户特征。为不干扰用户正常使用社交网络,本文根据新浪微博API特征,设计了隐式的用户数据获取算法,并根据用户模型,设计了一套用户特征生成算法,包括用于计算用户全局影响力的PersonRank特征生成算法、用以计算用户间相似度及亲密度的社交关系特征生成算法及根据朴素贝叶斯文本分类方法建立用户兴趣特征的生成算法,并采用隐式反馈的更新策略和基于用户主动反馈的策略建立了用户模型的更新机制。 在用户建模的基础上,本文设计了一套个性化评分和排序机制。评分和排序算法在全文检索引擎Lucene的评分基础之上进行,融合了用户影响力得分、用户社交关系得分及用户兴趣得分来生成最终的文档得分,然后根据得分对文档重新排序。 最后,本文在上述研究的基础上设计并实现了一个基于多维用户特征的个性化社交搜索引擎,并开放给数位用户进行评测。根据对点击日志的统计,表明用户对该个性化社交搜索引擎的满意度较全文检索引擎Lucene有较为明显的提升。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【图文】:

源码,组织图,系统结构,功能表


图 2-1 Lucene 系统结构与源码组织图e 中各个代码包的主要作用如表 2-1 所示:表 2-1 Lucene 包结构功能表Lucene 包结构功能表包名 功能e.lucene.analysis 语言分析器,主要用于分词,支持中文需要扩展此e.lucene.document 索引存储的文档结构管理e.lucene.index 索引管理,包括索引建立、删除等e.lucene.queryParser 查询分析器,实现查询关键词间的与、或、非等运e.lucene.search 检索管理,根据查询条件,检索结果e.lucene.store 数据存储管理,主要包括一些底层的 IO 操作e.lucene.util 公用类包Lucene 评分及排序机制

示意图,示意图,文档,公式


图 2-2 Lucene 评分示意图 Lucene 源代码中提取出评分的公式如下[21]: 2( , ) ( , ) ( )( ) ( ) . () ( , )t qScore q d coord q d queryNorm qtf t d idf t t getBoost norm t d q , d)为文档 d 对于查询 q 的得分,总体来说该公式是对著名的 TF-I得到的。详细介绍公式中各个因子的含义:oord(q , d)用来计算文档 d 中出现的查询 q 中的词条(Term)的比例,查在文档 d 中出现的越多,则评分越高。例如,查询 q 为“google baidgle又包含baidu的文档的coord(q , d)值高于只包含google或者baidu的ueryNorm(q) 这个标准化因子用于在多个查询器中进行比较。它并不

示例,概率向量,文本,中文分词


贝叶斯文本分类算法计算微博文本在上述 12 个领域的概率, P=<P1,P2,……,P12>, 设定最大的一维为 1,其余维数设为 0。微博文本的领域概率向量通过叠加的方式进行融合,生成用。要涉及两个方面,一方面是微博文本特征向量的生成,另一分类算法构建微博文本的领域概率向量。量的生成征向量的生成主要由微博文本扩展、中文分词、特征提取等本字数较短,因此每条微博的特征项较之传统网页会少很多条微博下会有相关的评论及转发信息,而相关的评论和转发开的,我们可以将其看作这个微博的自然扩展。如图 4-3、发信息和部分评论。

【参考文献】

相关期刊论文 前6条

1 赵仲孟,袁薇,何世丽,沈钧毅;个性化搜索引擎中用户模型智能调整算法的研究[J];计算机工程与应用;2005年24期

2 林霜梅;汪更生;陈弈秋;;个性化推荐系统中的用户建模及特征选择[J];计算机工程;2007年17期

3 徐婕;康慕宁;董谷音;;基于社交网络的实时搜索引擎的排序算法研究[J];科学技术与工程;2011年28期

4 袁柳;张龙波;;个性化搜索中的用户特征模型研究[J];计算机工程与应用;2011年15期

5 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期

6 张元馨,赵仲孟,沈钧毅;一种基于向量空间模型的个性化搜索引擎研究[J];微电子学与计算机;2003年11期

相关硕士学位论文 前2条

1 李爱明;个性化搜索引擎用户模型研究[D];华中师范大学;2007年

2 陈晨;基于兴趣多边形的个性化搜索系统的研究与实现[D];复旦大学;2010年



本文编号:2774273

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2774273.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户01a9c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com