一种建立在对客户端浏览历史进行LDA建模基础上的个性化查询推荐算法
本文选题:查询推荐 + 个性化 ; 参考:《四川大学学报(自然科学版)》2015年04期
【摘要】:现代搜索引擎普遍采用简单的关键词形式来表达查询,这为用户带来便利的同时也增加了准确获取信息的难度.搜索引擎很难基于少量的几个关键词准确捕捉用户的信息需求.查询推荐作为缓解上述问题的关键技术,已经开始应用于目前主流的搜索引擎.然而,绝大多数现有的查询推荐技术基于群体智慧,以搜索引擎日志为数据源,从中挖掘用户群体在构造查询方面的习性及查询之间的语义关联性,未考虑不同用户个性化的信息喜好,而且在搜索引擎服务器端进行查询推荐计算也会影响搜索引擎的响应效率和查询吞吐率.为此,本文提出一种运行于客户端的个性化查询推荐策略,该策略以用户浏览历史为数据源,采用LDA模型,并从中学习用户的信息喜好,在此基础上利用原始查询被主题模型生成的概率确定用户的查询意图,以词条与查询意图之间的关联来度量词条作为扩展查询被推荐的强度,最后选择Top N强度最强的词条作为查询推荐的结果.以人工标注的测试数据对本文所提出的算法进行了实验验证,结果表明,该算法在推荐扩展查询的准确率方面明显优于单纯基于词条与原始查询语义相关的方法.
[Abstract]:Modern search engines generally use simple keywords to express queries, which brings convenience to users, but also increases the difficulty of accurately obtaining information. It is difficult for search engines to accurately capture the information needs of users based on a few keywords. Query recommendation, as a key technology to alleviate the above problems, has been applied to the current mainstream search engine. However, most of the existing query recommendation techniques are based on group intelligence and take search engine logs as data sources to mine the habits of user groups in constructing queries and the semantic correlations between them. The information preferences of different users are not taken into account and the search engine response efficiency and query throughput will be affected by the query recommendation calculation on the server side of the search engine. Therefore, this paper proposes a personalized query recommendation strategy running on the client side. The strategy takes the user's browsing history as the data source, adopts the LDA model, and learns the information preference of the user. On this basis, the user's query intention is determined by the probability that the original query is generated by the topic model, and the relationship between the entry and the query intention is used to measure the strength of the extended query as the recommended term. Finally, the top N strongest term is selected as the result of query recommendation. The experimental results show that the proposed algorithm is superior to the original query based on terms and expressions in the accuracy of recommendation extended query.
【作者单位】: 四川大学计算机学院;浙江师范大学数理与信息工程学院;中国民用航空总局第二研究所信息技术分公司;
【基金】:浙江省自然科学基金(LY12F02010) 四川省科技支撑项目(2014GZ0063)
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 袁伯秋;周一民;李林;;LDA模型参数有偏估计方法[J];小型微型计算机系统;2010年04期
2 唐晓波;向坤;;基于LDA模型和微博热度的热点挖掘[J];图书情报工作;2014年05期
3 王嘉琦;徐朝军;李艺;;基于LDA模型的社交网站自动量化评价研究[J];现代图书情报技术;2013年03期
4 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
5 楚克明;李芳;;基于LDA模型的新闻话题的演化[J];计算机应用与软件;2011年04期
6 石大文;张晖;;基于LDA模型的BBS话题演化[J];工业控制计算机;2012年05期
7 孙世杰;濮建忠;;基于LDA模型的Twitter中文微博热点主题词组发现[J];洛阳师范学院学报;2012年11期
8 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期
9 李保利;杨星;;基于LDA模型和话题过滤的研究主题演化分析[J];小型微型计算机系统;2012年12期
10 ;[J];;年期
相关会议论文 前1条
1 丁兆云;王晖;;一种词位置相关的LDA模型[A];2013第一届中国指挥控制大会论文集[C];2013年
相关硕士学位论文 前3条
1 张田田;基于LDA模型的实体解析技术的研究与实现[D];北京邮电大学;2013年
2 彭利斌;微博热点话题发现与话题演化的研究[D];桂林电子科技大学;2014年
3 荀静;基于LDA模型的文档情感摘要研究[D];山东师范大学;2015年
,本文编号:2003908
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2003908.html