基于用户搜索行为的query-doc关联挖掘
本文选题:关联关系 切入点:搜索行为 出处:《自动化学报》2014年08期
【摘要】:query和doc之间的关联关系是搜索引擎期望获取的一类有价值的信息.query和doc间准确的关联分析不仅可以帮助搜索结果排序,也在query和doc之间的桥接中起到重要作用,以实现相关query和doc之间的信息传递,有利于更深入的query理解和doc理解,并在此基础上开展相关应用.本文提出了一种基于用户搜索行为的query和doc关联关系挖掘算法,该方法首先对用户搜索点击日志中的数据进行整理与分析,构建query与doc间的二部图,再通过采用马尔可夫随机游走模型对二部图数据进行建模,挖掘二部图中的点击数据和session数据,最终挖掘出点击日志中用户没有点击到的doc数据,从而预测出query和doc间的隐含关联关系,同时也可以利用该算法得到query和query潜在的关联关系.基于以上理论基础,我们实现了一套完整的日志挖掘系统,通过大量的实验对比,该系统在各方面均取得了优异的表现,其中对检索结果相关性的性能提升可以达到71.23%,这充分表明,本文所提出的理论和算法能够很好地解决query和doc之间的隐含关系挖掘问题,为提高搜索结果的召回率、实现查询推荐和检索结果聚类奠定了良好的前提基础.
[Abstract]:The association relationship between query and doc is a kind of valuable information that search engine expects to obtain. Query and doc can not only help the search results ranking, but also play an important role in the bridge between query and doc.In order to realize the information transmission between the related query and doc, it is beneficial to the deeper understanding of query and doc, and on the basis of which the related applications are developed.This paper presents an association relation mining algorithm for query and doc based on user search behavior. Firstly, the data in the user search click log is sorted and analyzed, and the bipartite graph between query and doc is constructed.Then by using Markov random walk model to model the bipartite graph data, mining the click data and session data in the two graphs, finally mining the doc data that the user did not click in the click log.The implicit correlation between query and doc can be predicted, and the potential correlation between query and query can also be obtained by using this algorithm.Based on the above theoretical basis, we have implemented a complete log mining system, through a large number of experiments, the system has achieved excellent performance in all aspects.Among them, the performance improvement of retrieval result correlation can reach 71.23, which fully shows that the theory and algorithm presented in this paper can solve the hidden relationship mining problem between query and doc well, in order to improve the recall rate of search results.The realization of query recommendation and retrieval result clustering lays a good foundation.
【作者单位】: 吉林大学计算机科学与技术学院;吉林大学符号计算与知识工程教育部重点实验室;
【基金】:国家自然科学基金(60973040,61300148) 中国博士后基金(2012M510879) 吉林省重点科技攻关项目(20130206051GX)资助~~
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 李金花;;在Excel中用Microsoft Query导入外部数据[J];中国管理信息化;2008年12期
2 杨兰;利用QueryDef提高资料的快速存取[J];电脑编程技巧与维护;1994年05期
3 赵龙强;在EXCEL中掌握ODBC、Query的应用[J];上海会计;2003年10期
4 杨兰;利用QueryDef提高资料的快速存取[J];电脑编程技巧与维护;1994年11期
5 ;活动模板库(ATL)创建小型COM对象(二)[J];电脑编程技巧与维护;1999年04期
6 刘宏,吴江;分布式对象中间件技术[J];现代电子技术;2003年08期
7 廉育功;软件:用VBA编制Access的查询程序[J];电脑知识与技术;2000年S4期
8 韩亮;运用RLU和DB2/400 Query Manager在AS/400中设计报表文件[J];计算机系统应用;2000年06期
9 邱景华,韩X;浅谈桌面数据库在公文管理中的实际应用[J];广东公安科技;2003年01期
10 廉育功;用VBA实现Access的查询[J];多媒体世界;2000年12期
相关会议论文 前10条
1 顾先睿;李建中;杨艳;;数字图书馆中并行文档数据加载算法(英文)[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 ;Variable and Index Processing in XML-QL Join[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
3 ;Data Query Using Short Domain Question in Natural Language[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
4 蔡黎;赵军;;Automatic Identification of User Intent Based on Click Through Data[A];第六届全国信息检索学术会议论文集[C];2010年
5 ;Research of Massive Heterogeneous Data Integration Based on Lucene and XQuery[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
6 ;Design and Evaluation of a Parallel K-Nearest Neighbor Algorithm on CUDA-enabled GPU[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
7 ;A Unified Query Model for Heterogeneous Data Resources[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
8 Grace wai-yue Leung;;Databases as Virtual XML Documents:an Interoperable Approach[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
9 ;An Efficiency Hierarchy Indexing Method with Dynamic Clustering Algorithm for ROIBIR System[A];第十五届全国图象图形学学术会议论文集[C];2010年
10 肖敏;丁宇新;高翔;;Learning to Rank Relational Objects Based on the Listwise Approach[A];第六届全国信息检索学术会议论文集[C];2010年
相关重要报纸文章 前10条
1 福建 曾晓萌;优化你的 Delphi 程序[N];电脑报;2001年
2 江苏 王鑫;Delphi控件使用点滴[N];电脑报;2002年
3 辽宁 谢艳敏 张涛;实现多表间的复杂查询[N];中国电脑教育报;2000年
4 河南 张华贵;数据库中参数化查询的实现[N];电脑报;2001年
5 重庆 hero;初试Delphi和SQL Server相连[N];电脑报;2004年
6 主持人 李海;VB新手常见问题解答[N];中国电脑教育报;2000年
7 PALADIN;编程沙龙[N];电脑报;2003年
8 dwway 冷鹏;DSS在电子政务中的应用[N];中国计算机报;2002年
9 杭州商学院2000级研究生(310035) 徐建平;在ASP中实现购物小车[N];计算机世界;2001年
10 王昊鹏;一步一步学Borland Delphi 编写数据库程序要点(二)[N];中国电脑教育报;2004年
相关博士学位论文 前10条
1 张得天;时间依赖路网高效k最近邻查询混搭机制的研究[D];中国科学技术大学;2014年
2 Khalil Ahmed Saleh Al-mekhlafi;[D];大连理工大学;2011年
3 范佳;可证明安全的签密相关公钥密码方案研究[D];西南交通大学;2011年
4 Mahmoud Sami Soliman;[D];中南大学;2010年
5 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
6 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
7 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年
8 李支成;时空数据库复杂查询方法研究[D];华中科技大学;2012年
9 刘润涛;基于序的空间数据索引及查询算法研究[D];哈尔滨理工大学;2009年
10 范平;路网中考虑运动状态的连续K近邻查询算法研究[D];华中科技大学;2012年
相关硕士学位论文 前10条
1 阚长城;Query Engine的设计与实现[D];电子科技大学;2012年
2 朱亮;基于马尔科夫随机游走模型的query-doc关联挖掘[D];吉林大学;2014年
3 唐国华;Query语义依存分析技术研究[D];哈尔滨工业大学;2012年
4 刘建柱;基于Query分析的中心词与需求词搭配关系的自动挖掘[D];东北大学;2008年
5 Clotilde Uwimana;[D];湖南大学;2010年
6 柳宝成;学生信息管理系统的研究与实现[D];吉林大学;2011年
7 NTAGWABIRA Lambert;[D];中南大学;2011年
8 黄勤;高等职业教育教学质量评价系统的设计与实现[D];山东大学;2011年
9 刘佳;基于微博的金融资讯检索平台查询优化技术的研究和实现[D];北京邮电大学;2012年
10 张哲雨;山东圣翰财贸职业学院图书馆WEB系统的设计与实现[D];山东大学;2011年
,本文编号:1712624
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1712624.html