基于用户查询日志的网络搜索主题分析
本文选题:网络搜索 切入点:搜索引擎 出处:《智能系统学报》2017年05期 论文类型:期刊论文
【摘要】:网络搜索分析在优化搜索引擎方面具有举足轻重的作用,而且对用户个人搜索特性进行分析能够提高搜索引擎的精准度。目前,大多数已有模型(比如点击图模型及其变体),注重研究用户群体的共同特点。然而,关于如何做到既可以获取用户群体共同特点又可以获取用户个人特点方面的研究却非常少。本文研究了基于个人用户网络搜索分析新问题,即通过研究用户搜索的突发性现象,获取个人用户搜索查询的主题分布情况。提出了两个搜索主题模型,即搜索突发性模型(SBM)和耦合敏感搜索突发性模型(CS-SBM)。SBM假设查询词和URL主题是无关的,CS-SBM假设查询词和URL之间是有主题关联的,得到的主题分布信息存储在偏Dirichlet先验中,采用Beta分布刻画用户搜索的时间特性。实验结果表明,每一个用户的网络搜索轨迹都有多种基于用户的独有特点。同时,在使用大量真实用户查询日志数据情况下,与LDA、DCMLDA、TOT相比,本文提出的模型具有明显的泛化性能优势,并且有效地描绘了用户搜索查询主题在时间上的变化过程。
[Abstract]:Web search analysis plays an important role in optimizing search engines, and the analysis of individual search characteristics of users can improve the accuracy of search engines. Most existing models, such as click-graph models and their variants, focus on the common characteristics of the user community. However, There is very little research on how to obtain both the common characteristics of user groups and the characteristics of users. In this paper, a new problem of search analysis based on personal user network is studied, that is, by studying the sudden phenomenon of user search, To obtain the topic distribution of individual user search query. Two search topic models are proposed. That is to say, the search paroxysmal model (SBM) and the coupled sensitive search paroxysmal model (CS-SBM.SBM) assume that the query term is independent of the URL topic and that there is a thematic correlation between the query term and the URL, and the topic distribution information obtained is stored in the partial Dirichlet priori. The Beta distribution is used to describe the time characteristics of user search. The experimental results show that each user's path of network search has many unique characteristics based on users. At the same time, in the case of using a large number of real users to query log data, compared with LDA-DCMLDATOT, The model presented in this paper has obvious generalization performance advantages and effectively describes the time variation process of user search query topics.
【作者单位】: 山东财经大学计算机科学与技术学院;香港科技大学计算机科学及工程学系;
【基金】:国家自然科学基金重点项目(U1201258) 山东省自然科学杰出青年基金项目(JQ201316) 教育部人文社会科学研究项目(15YJAZH042)
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 ;网络搜索未来将出现三大趋势[J];软件世界;2009年07期
2 靳超;;网络搜索技巧探究[J];青春岁月;2014年07期
3 朝云;;有图就能挖出真“像”[J];电脑爱好者;2014年08期
4 胡恒峰;;网络搜索轻松搞定[J];科学24小时;2006年10期
5 罗勇;;搜索结果提前知[J];电脑迷;2010年23期
6 凯特·雷尼;;谷歌研发部主任:网络搜索走向个性化[J];科技创业;2010年02期
7 一啸倾城;;搜出随心所欲[J];电脑迷;2010年06期
8 ;实用网络搜索技巧[J];蓝铃(打工妹);2006年07期
9 王贺;冯谱;;一种汉语语音网络搜索方法[J];山东理工大学学报(自然科学版);2007年02期
10 蝴蝶;;暑期到来 全家都会喜爱的几种简易工具[J];计算机与网络;2013年13期
相关重要报纸文章 前2条
1 薇言;可寻性与网络搜索[N];中华读书报;2014年
2 胡红军;让搜索发挥更大价值[N];经济日报;2009年
相关博士学位论文 前1条
1 卢万媈;基于眼动跟踪的网络搜索行为分析与预测[D];北京理工大学;2015年
相关硕士学位论文 前10条
1 李晓荣;最大和网络搜索结果多样性问题及其贪婪策略分析[D];电子科技大学;2016年
2 国敏;基于网络搜索技术的游客量预测方法研究[D];首都师范大学;2012年
3 李一宁;对等点(P2P)网络搜索技术的研究[D];上海交通大学;2007年
4 肖华;个性化网络搜索的研究[D];北京工业大学;2006年
5 冯明星;基于本体论和聚类的P2P网络搜索方法研究[D];广西大学;2007年
6 李锐;P2P网络搜索方法的研究及在远程考试系统中的应用[D];贵州大学;2007年
7 张恩会;基于JXTA的P2P网络搜索技术的研究[D];沈阳工业大学;2006年
8 向阳;基于P2P网络搜索机制的设计与应用[D];北京邮电大学;2009年
9 董国盛;基于查询日志的用户查询意图检测[D];天津大学;2014年
10 邱鹏;基于用户查询行为分析的在线订票系统缓存优化策略研究[D];北京交通大学;2017年
,本文编号:1600005
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1600005.html