基于用户查询日志的查询聚类
本文选题:聚类算法 切入点:搜索引擎 出处:《北京航空航天大学学报》2010年04期
【摘要】:基于用户查询日志提出了新的查询聚类算法.用户查询日志数据量大,比通常用于查询聚类的查询展现日志和查询点击日志更加稠密,不易产生聚类小的问题,但噪声多,不容易处理.为发现相似查询并减少噪声影响,同一用户同一时段的多次查询(共现查询)之间认为具有较高相似概率.在这一假设基础上,利用查询共现关系建立查询的邻居查询向量空间.将查询用邻居查询向量表示,邻居查询向量的相似度作为聚类中的查询相似度.应用改进的基于密度聚类算法完成聚类.实验证明,95 262个查询组成数据集上,聚类算法实现查准率79.77%、查全率48.21%,平均聚类大小达到51.
[Abstract]:User query log query proposed new clustering algorithm based on query log data, than is commonly used for query clustering query logs and click query log to show more dense, not easy to produce a small cluster, but the noise, not easy to deal with. In order to find similar queries and reduces the noise, repeated the same query at the same time the user (co-occurrence queries) between that with a higher probability of similar. In this hypothesis, the co-occurrence relationship query vector space using neighbor query query. The query with neighbor query vector, neighbor query vector similarity as query similarity clustering. The application of improved clustering algorithm based on density complete clustering. The experimental results show that the 95262 query consists of data set, clustering algorithm precision 79.77%, recall 48.21%, the average cluster size reached 51.
【作者单位】: 北京航空航天大学计算机学院;
【基金】:国家863计划资助项目(2007AA010302) 国家自然科学基金资助项目(60603039,90718018)
【分类号】:TP391.3
【参考文献】
相关期刊论文 前2条
1 张辉;谢科;庞斌;吴辉;;一种基于关键特征的搜索引擎结果聚类算法[J];北京航空航天大学学报;2007年06期
2 张刚;刘悦;郭嘉丰;程学旗;;一种层次化的检索结果聚类方法[J];计算机研究与发展;2008年03期
【共引文献】
相关期刊论文 前8条
1 于洪;谌强;;一种结合K-Means的层次化的搜索结果聚类方法[J];重庆邮电大学学报(自然科学版);2010年03期
2 陈毅恒;秦兵;刘挺;王平;李生;;基于潜在语义索引和自组织映射网的检索结果聚类方法[J];计算机研究与发展;2009年07期
3 靳宇倡;秦启文;安俊秀;;网络群体心理趋势智能分析模型研究[J];计算机科学;2010年06期
4 安俊秀;;基于服务器集群的云检索系统的研究与示范[J];计算机科学;2010年07期
5 黄健斌;白杨;康剑梅;钟翔;张鑫;孙鹤立;;一种基于同步动力学模型的网络社团发现方法[J];计算机研究与发展;2012年10期
6 柳佳刚;曾利军;;基于PAT-tree的中文搜索引擎结果聚类算法[J];情报杂志;2009年12期
7 庞观松;张黎莎;蒋盛益;邝丽敏;吴美玲;;一种基于名词短语的检索结果多层聚类方法[J];山东大学学报(理学版);2010年07期
8 罗宏;陈黎;王亚强;朱洪波;韩国辉;于中华;;基于查询相关性分析的检索结果聚类算法[J];小型微型计算机系统;2011年10期
相关会议论文 前1条
1 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
相关博士学位论文 前3条
1 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
2 李红梅;智能元搜索引擎关键技术研究[D];西安电子科技大学;2009年
3 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
相关硕士学位论文 前10条
1 轩春青;基于客户反馈的FTP搜索引擎的研究与设计[D];郑州大学;2011年
2 邹浩;基于B/S+C/S结构的高校图书管理系统[D];电子科技大学;2011年
3 刘龙海;基于成对约束的半监督文本聚类算法研究[D];重庆大学;2011年
4 杨韶华;形式背景近似约简及其在信息聚类中的应用[D];河南大学;2008年
5 林浩;基于电子商务平台的智能搜索引擎研究与设计[D];东北师范大学;2009年
6 史进玲;基于粒计算的决策表属性约简与规则提取研究[D];河南师范大学;2009年
7 王平;基于自组织特征映射的检索结果聚类研究[D];哈尔滨工业大学;2009年
8 万涛;图书馆管理系统的设计与实现[D];吉林大学;2009年
9 李琳;基于粗糙集和遗传算法的聚类方法研究[D];广西师范大学;2009年
10 黎冬;基于Linux平台FTP搜索引擎的研究[D];湖北工业大学;2009年
【二级参考文献】
相关期刊论文 前3条
1 姚莉秀,杨杰,叶晨洲,陈念贻;用于特征筛选的最近邻(KNN)法[J];计算机与应用化学;2001年02期
2 王志梅,张俊林,李秋山;Web检索结果快速聚类方法的研究与实现[J];计算机工程与设计;2004年12期
3 耿玉良,陈家琪,王咏梅;中文Web检索中聚类算法的改进[J];计算机工程与设计;2005年10期
【相似文献】
相关期刊论文 前10条
1 彭松行;;基于描述优先算法的Web搜索结果聚类系统研究[J];心智与计算;2010年04期
2 周彩兰;冯斌;;Web数据挖掘在搜索引擎中的应用[J];软件导刊;2007年17期
3 张丽霞;;如何在Web挖掘中使用聚类算法[J];牡丹江大学学报;2007年09期
4 江婕;李建民;曾R挽,
本文编号:1655688
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1655688.html