基于二分图的查询推荐算法
本文选题:加权二分图 + 查询推荐 ; 参考:《安徽大学》2014年硕士论文
【摘要】:当前,互联网已经成为全世界最大的一个知识库,蕴含着海量的信息,人们可以获取的网络信息与日俱增。用户在面对大规模的网络信息时,却往往茫然于如何更快更准确地找到所需要的信息。搜索引擎可以帮助人们从海量数据中获取信息,已经成为用户获取网络信息的最主要甚至必不可少的工具之一。但目前的搜索引擎与用户的交互方式仍然是主要通过用户根据信息需求自主输入查询关键词进行检索,搜索引擎返回查询结果。由于输入的查询词一般较为简短,并且查询词自身存在歧义性和多义性,搜索引擎并不能准确理解用户真实的搜索意图。基于此种背景下,查询推荐技术如今已经被搜索引擎普遍采用,帮助搜索引擎更准确地了解用户真实的查询意图以及帮助用户构造更加完善的查询。 本文主要研究了一种基于二分图的查询推荐算法。采用搜狗查询日志作为实验数据集,对该数据集进行分析与预处理之后,抽取31万条用户历史点击数据作为实验用数据。将用户点击URL在搜索引擎返回结果列表中的排序号和用户点击该URL的顺序号考虑到二分图连接边的权重计算公式中,利用TF-IDF思想计算边的权重,得到Query-URL加权二分图。利用用户点击的URL集合构造向量来表示对应的查询,然后使用余弦相似度方法计算任意两个不同查询间的相似度,最后构建一个描述查询间相关度的查询关系网络图。对一个输入查询推荐N个候选查询的过程是:首先在查询关系网络图上找到该输入查询所在节点的邻居节点构成初始候选查询集合H。若集合H中查询的数目不小于N,直接选取前N个与输入查询相关度得分较高的候选查询进行推荐;若集合H中查询的数目小于N,则将和输入查询节点间接连接的h-hop范围内节点也加入集合H中,利用k-means算法对集合H中的查询进行聚类,最后对包含输入查询的簇进行排序,推荐前N个与输入查询相关度得分较高的候选查询。实验结果表明,本文研究的查询推荐算法具有良好的推荐效果和一定的应用价值。
[Abstract]:At present, the Internet has become the world's largest knowledge base, containing a large amount of information, people can get more and more network information. In the face of large-scale network information, users are often confused about how to find the needed information more quickly and accurately. Search engine can help people to obtain information from massive data and has become one of the most important and even indispensable tools for users to obtain information on the network. However, the interaction between search engines and users is still mainly based on the information needs of users to input query keywords for retrieval, search engines return query results. Because the inputted query words are generally short, and the query words themselves are ambiguous and ambiguous, the search engine can not accurately understand the users' real search intention. Based on this background, query recommendation technology has been widely used by search engines, which helps search engines understand users' real query intention more accurately and help users to construct more perfect queries. This paper mainly studies a query recommendation algorithm based on bipartite graph. Sogou query log is used as experimental data set. After analyzing and preprocessing the data set, 310000 user history click data are extracted as experimental data. The sorting number of user clicking URL in the search engine return result list and the order number of user clicking on the URL are taken into account in the calculation formula of the weight of the connection edge of the bipartite graph, and the weight of the edge is calculated by using the idea of TF-IDF, and the weighted bipartite graph of Query-URL is obtained. The URL set is used to construct the vector to represent the corresponding query. Then the similarity between any two different queries is calculated by using the cosine similarity method. Finally, a query relational network graph is constructed to describe the correlation between the queries. The process of recommending N candidate queries for an input query is as follows: firstly, the neighbor nodes of the node where the input query is located are found on the query relational network diagram to form the initial candidate query set H. If the number of queries in the set H is not less than N, we directly select the first N candidate queries with high correlation score to recommend. If the number of queries in the set H is less than N, then the nodes in the range of h-hop that are indirectly connected with the input query nodes are added to the set H, and the query in the set H is clustered by using the k-means algorithm. Finally, the clusters containing input queries are sorted. The first N candidate queries with high correlation with input queries are recommended. Experimental results show that the query recommendation algorithm studied in this paper has good recommendation effect and certain application value.
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 夏敬华,陆宝春,葛红宇,张世琪;一种多因素指标下基于模糊特征表示的匹配方法[J];计算机工程与科学;1999年06期
2 李昂,罗汉文,陈强;基于置信传播的LDPC码译码算法[J];计算机工程;2005年20期
3 郝水侠;李凡长;;构建一种多agent并行计算模型[J];计算机技术与发展;2006年05期
4 林馨;;二部图网络信息传输的最短时间[J];数字技术与应用;2010年05期
5 闻斌;姜伟;张立;欧卫华;;构造消环的LDPC码[J];常熟理工学院学报;2011年02期
6 常庭懋,韩中庚;用“匈牙利算法”求解一类最优化问题[J];信息工程大学学报;2004年01期
7 张旭堂,刘文剑;基于二分图的装配体检索研究[J];计算机辅助设计与图形学学报;2005年09期
8 林雪红,吴伟陵;LDPC码的并行译码算法[J];北京邮电大学学报;2005年05期
9 花晓菲;李旭;;基于图论的频率规划算法分析与仿真[J];西安邮电学院学报;2007年01期
10 安晓东;;基于蚁群算法的电子化考试考场座位编排方法[J];中北大学学报(自然科学版);2007年03期
相关会议论文 前10条
1 杨楠;丁晖;刘悦;;Web社区紧密核的抽取方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 刘永山;朱锐;徐友云;蔡跃明;;衰减因子在LDPC码置信算法中的应用及性能分析[A];江苏省通信学会2004年学术年会论文集[C];2004年
3 钟茂生;刘慧;刘磊;;词汇间语义相关关系量化计算方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 赵玉虎;;一种编码跳时超宽带系统性能分析[A];浙江省电子学会第七次会员代表大会暨2007学术年会论文集[C];2007年
5 王继存;;有限元节点编号的优化方法[A];土木工程中计算机应用文集——中国土木工程学会计算机应用学会成立大会暨第一次学术交流会论文集[C];1981年
6 赵海建;林宏;;数字电视中LDPC码构造方法的研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
7 宋晓云;汪一鸣;;LDPC码在UWB上的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
8 周星宇;贺仲雄;;Vague匹配决策支持系统及其在人才调配中应用[A];2003年中国智能自动化会议论文集(下册)[C];2003年
9 张磊;马军;;描述短时资源混杂占用型任务调度的数学模型与算法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
10 刘惠;李晓军;杜军朝;张荧俊;张云扬;;基于LT喷泉码的无线传感器网络信息分发协议性能评价[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
相关博士学位论文 前10条
1 吴宏伟;社会网络数据发布中的隐私匿名技术研究[D];哈尔滨工程大学;2013年
2 卞秋菊;关于图的因子与分数因子的若干结果[D];山东大学;2005年
3 刘小同;接近仙农限码的研究及VLSI设计[D];同济大学;2007年
4 徐秀莲;合作—竞争网和交连网的研究[D];扬州大学;2010年
5 刘辉;基因调控网络的建模与学习研究[D];复旦大学;2009年
6 曹海燕;无线通信系统中的LDPC码、Turbo码和空时编码的研究[D];华南理工大学;2006年
7 林竞力;低密度校验码的构造及其应用研究[D];电子科技大学;2009年
8 王剑;果树枝干三维重建关键技术研究[D];中国农业科学院;2009年
9 张斌武;哈明距离下的逆优化问题及多物品的制造与分配问题[D];浙江大学;2005年
10 黄晓慧;Internet服务故障管理[D];北京邮电大学;2006年
相关硕士学位论文 前10条
1 朱琅;基于二分图的查询推荐算法[D];安徽大学;2014年
2 何峰;二分图顶点覆盖问题的求解及应用[D];昆明理工大学;2002年
3 蔡莹莹;基于二分图的应急预案体系有效性研究[D];大连理工大学;2012年
4 鲁富荣;二分图的因子[D];山西大学;2007年
5 陈勇帆;集成电路自动测试设备接口板网表生成方法研究[D];华南理工大学;2012年
6 张林;基于蚁群算法的排课系统研究与设计[D];安徽大学;2005年
7 王芳;低密度奇偶校验码的研究及其应用[D];大连海事大学;2006年
8 惠伟;基于社会网络的集团人员构成研究[D];山东师范大学;2009年
9 王志红;RoboCup中型组足球机器人决策系统的研究[D];山东大学;2007年
10 张国栋;低密度校验码的理论分析及在图像传输中的应用研究[D];山东大学;2005年
,本文编号:1816854
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1816854.html