基于社交关系的web搜索研究
发布时间:2018-06-19 06:15
本文选题:搜索引擎 + 社交搜索 ; 参考:《杭州电子科技大学》2017年硕士论文
【摘要】:目前,网民获取信息的一个重要方式就是在线搜索。但是随着WEB 2.0和各类社交网站的日益崛起,传统搜索引擎的重大缺陷日益凸显。即各种Web2.0网站和社交网站拥有极为丰富的用户数据,但传统搜索引擎却无法支持对其检索。对用户而言,不同的用户因为职业、爱好、学历及社交关系有所不同,对搜索结果的期待也就有所不同,因此对获取个性化的搜索结果有着迫切的需求。对企业而言,企业迫切需要用户参与的新型搜索方式的普及,从而能够获取更多用户信息,以便更好地发展客户关系和提供个性化服务。鉴于此,本文提出一个新的搜索系统,命名为PERSO,意图使用PERSO系统实现基于用户社交行为的个性化搜索目标。该系统通过爬取开放的在线社交网络数据,分析丰富的用户特征及社交关系,把用户最感兴趣的结果反馈在最靠前的位置,从而改善了传统搜索引擎的搜索结果。用户建模是个性化社交搜索的关键,本文根据国内最大最开放的社交网站新浪微博的数据特征,提出了多层次多维度的用户模型,包括一级(用户自身社交行为)、二级(朋友社交行为)、三级(社交扩张)社交相关度模型,后者是前者的补充,全面地描述了社交网络中的用户特征。在用户建模的基础上,本文提出将社交相关度模型集成到web文本搜索处理过程的三种方法,即三种网页排序机制:先文本特征过滤后社交特征排序的两步骤TP排序;先社交特征过滤后文本特征排序的两步骤PT排序;社交与文本共排序的一步骤HB排序。最后,本文以1000万篇百度百科文档和20位真实的新浪微博用户的社交数据为数据来源,以F1和nDCG@K为评价指标,设计执行了四组实验:三种层级的社交化相关度模型的测评实验;三种排序机制的测评实验;用户与好友信息对搜索效果的影响力对比测评实验;好友数量对搜索效果的影响力测评实验。实验证明了本文排序机制的有效性,以及每一级模型对搜索结果不同的改善程度。
[Abstract]:At present, an important way for Internet users to obtain information is online search. However, with the rise of Web 2.0 and various social networking sites, traditional search engines become more and more flawed. Web 2.0 sites and social networking sites are rich in user data, but traditional search engines cannot retrieve them. For users, different users have different expectations for search results because of their different occupations, hobbies, academic qualifications and social relationships, so there is an urgent need to obtain personalized search results. For enterprises, enterprises urgently need the popularization of new search methods in which users participate, so as to obtain more user information, in order to better develop customer relations and provide personalized services. In view of this, this paper proposes a new search system named Perso, which is intended to realize the personalized search target based on user's social behavior. By crawling open online social network data and analyzing rich user characteristics and social relationships, the system feedback the most interesting results to the front, thus improving the search results of traditional search engines. User modeling is the key to personalized social search. According to the data features of Sina Weibo, the largest and most open social network in China, this paper puts forward a multi-level and multi-dimensional user model. It includes one level (user's own social behavior), two (friend's social behavior), three (social expansion) social relevance model, the latter is the supplement of the former, which comprehensively describes the characteristics of users in the social network. On the basis of user modeling, this paper proposes three methods to integrate the social correlation model into the web text search process, that is, three kinds of web page sorting mechanisms: first text feature filtering and then two step TP sorting of social features; Social feature filtering and text feature sorting are two steps PT sorting and one step HB sorting of social and text cosorting. Finally, taking 10 million Baidu encyclopedia documents and 20 real Sina Weibo users' social data as data source, using F1 and nDCGGK as evaluation indexes, four groups of experiments are designed and implemented: three levels of social correlation model; Three kinds of ranking mechanism evaluation experiment; user and friend information on the impact of the search effect comparison test; the number of friends on the impact of the search effect evaluation experiment. The experimental results show that the ranking mechanism is effective and the search results are improved by different models at each level.
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.09;TP391.3
【参考文献】
相关期刊论文 前10条
1 李金洋;王燕华;樊艳;汪诚愚;张蓉;何晓丰;;中文分类体系的构建与查询系统[J];计算机应用;2016年S1期
2 徐晓枫;贺j;杨静;;融合社交与搜索数据的电视剧点播排名预测研究[J];计算机工程;2015年08期
3 李志虹;;基于遗传迭代优化的云计算下海量数据分类查询[J];科技通报;2015年06期
4 张晓娟;李健;乐兴虎;;不同意图类别查询的搜索引擎稳定性分析[J];情报杂志;2015年06期
5 周敬才;胡华平;岳虹;;基于Lucene全文检索系统的设计与实现[J];计算机工程与科学;2015年02期
6 过云燕;王宏志;张玮奇;;社交网络中基于分类属性的好友推荐[J];计算机工程与应用;2015年12期
7 张彦文;;Facebook社交搜索及其对图书馆服务的影响[J];图书馆论坛;2014年10期
8 孙逸敏;;基于Sphinx的社交网络搜索引擎的设计与分析[J];科技通报;2014年02期
9 程时端;郭亮;王文东;;社会搜索研究综述[J];北京邮电大学学报;2013年01期
10 黄翼彪;;实现Lucene接口的中文分词器的比较研究[J];科技信息;2012年12期
相关硕士学位论文 前1条
1 张炼;基于图模型的Web文档分类方法研究[D];内蒙古科技大学;2010年
,本文编号:2038854
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2038854.html