当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于用户搜索历史的个性化信息检索研究

发布时间:2018-05-06 08:36

  本文选题:个性化信息检索 + 用户历史 ; 参考:《哈尔滨工业大学》2015年博士论文


【摘要】:个性化信息检索针对用户个人兴趣偏好优化文档排序,被认为是现有搜索引擎改善用户检索体验的一种有效途径。个性化信息检索以用户为中心提供有针对性的检索结果,因此不仅考虑查询和文档的匹配度,还考虑文档和用户兴趣偏好的匹配度。用户历史包含用户丰富的信息,是获取用户兴趣偏好的最佳途径,成为个性化信息检索研究的焦点。为了探索不同的用户历史在检索中的作用,本文量化分析了用户历史与检索结果的相关性,探讨了如何利用短期历史、长期历史、以及综合利用二者以提高个性化检索性能的方法。1)针对用户历史与检索结果的关系,量化分析了用户长短期历史与用户查询和点击的相关性。本文采用向量空间模型框架,从以下四个方面分析了用户长短期历史与查询和点击的关系:相关比例、相关程度、是否存在线性关系和具体内容上的差异。分析发现79.55%的查询可以从用户历史中获取相关信息,其中短期历史覆盖的比例较大(71.23%),相关程度也较高;而针对同一个查询,不同的用户历史所提供的相关信息不尽相同,彼此的结合有可能进一步提高检索性能。2)针对如何合理利用短期历史的问题,提出了一种短期历史权重自适应的个性化检索方法。为了合理分配短期历史权重,本文以短期历史和当前查询的相关强度为核心依据,以当前查询、短期历史查询、短期历史点击三个维度上的用户行为特征为线索,建立了SVM回归模型对短期历史的权重进行预测。实验表明,该方法能够根据具体的检索环境为每个查询的短期历史动态分配权重,有效提升了个性化检索性能。3)针对如何有效利用长期历史的问题,本文引入增量层次聚类算法对长期兴趣建模,并在此基础上建立新的查询模型。长期历史内容丰富但主题相对分散,并随着用户的使用不断积累更新,因此长期历史中包含很多与当前查询无关的内容。针对该问题,本文采用增量层次聚类算法渐进地构建用户长期兴趣树,并使用对当前检索有最大帮助的兴趣簇估计长期兴趣模型,从而对用户查询进行有益补充。实验证明,基于长期历史增量层次聚类的个性化检索方法显著优于现有基于长期历史的检索方法,在一定程度上解决了具有多样性和动态性的长期历史的利用问题,改善了个性化检索性能。4)在上述研究的基础上,设计了一种基于用户长短期历史融合的个性化检索框架。用户长短期历史对检索结果的作用不同,本文的模型将二者的不同作用综合作用于查询和文档,一方面根据长短期历史更准确地估计用户查询,另一方面考虑了文档相对于用户的重要性差异。实验中全面比较了不同用户历史的各种组合,结果表明长短期历史融合作用于查询的效果优于只使用一种历史的情况,而同时作用于查询和文档可以获得最佳的检索性能。
[Abstract]:Personalized information retrieval is considered to be an effective way to improve users' retrieval experience by optimizing document ranking according to users' personal interests and preferences. Personalized information retrieval takes the user as the center to provide targeted retrieval results, so not only the matching degree of query and document, but also the matching degree of document and user interest preference are considered. The history of users contains abundant information, which is the best way to obtain user's preference of interest and becomes the focus of personalized information retrieval. In order to explore the role of different user history in retrieval, this paper quantitatively analyzes the correlation between user history and retrieval results, and discusses how to make use of short-term history and long-term history. According to the relationship between user history and retrieval result, the correlation between user's long and short history and user's query and click is analyzed quantitatively. In this paper, we use the vector space model framework to analyze the relationship between the user's long and short history and query and click from four aspects: correlation ratio, correlation degree, whether there is a linear relationship and the difference of specific content. It is found that 79.55% of the queries can obtain the relevant information from the user's history, among which the proportion of short-term history covers a large proportion, and the correlation degree is also high, but for the same query, different user history provides different relevant information. The combination of each other may further improve the retrieval performance. 2) aiming at the problem of how to make rational use of short-term history, an adaptive personalized retrieval method based on short-term historical weight is proposed. In order to distribute the short-term historical weight reasonably, this paper takes the short-term history and the relevant intensity of the current query as the core basis, taking the user behavior characteristics on the three dimensions of current query, short-term historical query and short-term history click as the clue. SVM regression model is established to predict the weight of short-term history. Experiments show that the method can assign weights to the short-term history of each query according to the specific retrieval environment, and effectively improve the performance of personalized retrieval. 3) aiming at the problem of how to utilize the long-term history effectively. In this paper, incremental hierarchical clustering algorithm is introduced to model long-term interest, and a new query model is established. The long history is rich in content, but the topic is relatively scattered, and with the use of the user, it is constantly updated, so the long history contains a lot of content unrelated to the current query. To solve this problem, the incremental hierarchical clustering algorithm is used to construct the long-term interest tree of the user gradually, and to estimate the long-term interest model by using the interest cluster which is the most helpful for the current retrieval, so as to complement the user query. The experiments show that the personalized retrieval method based on long-term historical increment hierarchical clustering is significantly superior to the existing retrieval method based on long-term history, and to some extent, it solves the problem of the utilization of long-term history with diversity and dynamics. Improving the performance of personalized retrieval. (4) based on the above research, a personalized retrieval framework based on the combination of users' long and short history is designed. The function of user's short and long history on retrieval results is different. The model of this paper combines the two functions to query and document, on the one hand, estimates user query more accurately according to long and short history. On the other hand, the importance of documents relative to users is considered. The results show that the combination of long and short history is better than that of using only one history, and the best retrieval performance can be obtained by using both query and document.
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 李树青;;个性化信息检索技术综述[J];情报理论与实践;2009年05期

2 易明;操玉杰;毛进;;基于点击流的个性化信息检索研究[J];情报科学;2011年04期

3 杨林;;浅析个性化信息检索模型[J];兰台世界;2013年02期

4 杨涛;;个性化信息检索及其实现方式探析[J];图书情报论坛;2002年02期

5 陈小华;赵捧未;;基于关联规则的个性化信息检索系统研究[J];情报科学;2006年06期

6 郭新明;赵蔷;弋改珍;;基于相关反馈的个性化信息检索模型研究[J];咸阳师范学院学报;2008年06期

7 田晓珍;张敏;;基于元搜索引擎的个性化信息检索系统[J];科技情报开发与经济;2008年02期

8 朱晓斌;周源;;个性化信息检索在网络营销中的应用[J];科技信息(学术研究);2008年05期

9 徐险峰;;2001—2008年我国个性化信息检索研究综述[J];新世纪图书馆;2009年03期

10 张宁;赵德平;;基于领域本体的个性化信息检索研究与应用[J];科技传播;2010年12期

相关会议论文 前2条

1 邹博伟;张宇;范基礼;郑伟;刘挺;;基于改进的TextTiling方法的用户新兴趣发现的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

2 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

相关重要报纸文章 前1条

1 应晓敏 窦文华;条条道路通罗马[N];计算机世界;2003年

相关博士学位论文 前1条

1 王晓春;基于用户搜索历史的个性化信息检索研究[D];哈尔滨工业大学;2015年

相关硕士学位论文 前10条

1 王剑;基于用户偏好分析的个性化信息检索关键技术研究[D];苏州大学;2016年

2 刘宏;基于语义的个性化信息检索研究[D];华北电力大学(河北);2010年

3 余肖生;数字图书馆的个性化信息检索研究[D];华中师范大学;2004年

4 纪明奎;基于语义网的个性化信息检索模型研究[D];黑龙江大学;2007年

5 尹红丽;基于本体的个性化信息检索系统模型研究[D];山东大学;2006年

6 陈小华;数据挖掘技术在个性化信息检索系统中的应用研究[D];西安电子科技大学;2006年

7 万里;基于本体的个性化信息检索研究[D];兰州理工大学;2013年

8 林霞;个性化信息检索技术在勘探门户中的应用研究[D];西安石油大学;2011年

9 康杨杨;个性化信息检索中用户偏好分析技术研究[D];苏州大学;2014年

10 王威;基于上下文的个性化信息检索技术研究[D];厦门大学;2009年



本文编号:1851571

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1851571.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8c8df***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com