基于词间语义相关度的搜索结果聚类算法
本文关键词: 搜索结果聚类 词间语义相关度 文档相似度 出处:《郑州大学学报(理学版)》2009年01期 论文类型:期刊论文
【摘要】:将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高.
[Abstract]:The query results according to the content of the clustering is one of the key technologies to improve the quality of search engines. Search results clustering only from the title of the document and document fragments from limited information, the traditional clustering methods are difficult to accurately compute the similarity. We propose a new clustering word semantic correlation algorithm based on search results, the algorithm based on word as the core of the word clustering, document word attributes, according to the words in the search results to the present situation of document classification. This method can make full use of semantic relation between words, classification can be determined after class. The experimental results show that the search results clustering when compared with K-Means and STC algorithm. The quality should be improved.
【作者单位】: 北京石油化工学院计算机科学与工程系;
【基金】:北京市教育委员会项目,编号KM200610017007
【分类号】:TP391.1;TP18
【参考文献】
相关期刊论文 前2条
1 刘辉林;郭来德;刘兰哲;王光兴;;中文农业主题搜索引擎的设计与实现[J];郑州大学学报(理学版);2007年02期
2 钱丽萍;汪立东;;基于中心短语及权值的相似度计算[J];郑州大学学报(理学版);2007年02期
【共引文献】
相关期刊论文 前9条
1 兰富军;李春霆;高海忠;;农业主题垂直搜索引擎过滤技术研究[J];安徽农业科学;2010年09期
2 张戬慧;;专业智能搜索系统在动物医学领域中的应用[J];东北农业大学学报;2009年09期
3 王倩;刘奕群;马少平;茹立云;;面向搜索引擎竞价排名的关键词商业价值分析[J];广西师范大学学报(自然科学版);2010年03期
4 张戬慧;王洪斌;;兽药类科技文献信息搜索系统的构建研究[J];情报探索;2009年09期
5 阮进;袁景瑞;梁循;;互联网金融新闻搜索的文本消重方法研究[J];西华大学学报(自然科学版);2008年02期
6 熊金辉;杨勇;罗海燕;王淑彦;刘怡良;;基于扩展SKOS模型的简单农业本体系统建设方法[J];沈阳农业大学学报;2010年04期
7 郑凯斌;黄益栓;;基于网页的医学信息搜索系统的分析与设计[J];医学信息;2009年03期
8 鲁德浩;郏东耀;;一种改进的概念相似度计算方法[J];郑州大学学报(理学版);2010年01期
9 张琳;胡杰;;FAQ问答系统句子相似度计算[J];郑州大学学报(理学版);2010年01期
相关会议论文 前1条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
相关硕士学位论文 前5条
1 范先爽;基于个性化服务的汽车信息搜索引擎的研究[D];武汉理工大学;2011年
2 张祖莲;网络点击欺诈及预防策略的研究[D];新疆大学;2011年
3 周鹏;农业搜索引擎系统的关键技术研究[D];首都师范大学;2009年
4 张冰;基于领域的信息分类和搜索技术的研究[D];济南大学;2009年
5 刘兰哲;企业搜索引擎中网页分类技术的研究与实现[D];东北大学;2008年
【二级参考文献】
相关期刊论文 前1条
1 王天江,叶卫国,卢正鼎,李永平;基于Hyperlink和相关度发现Web相关文档的研究[J];小型微型计算机系统;2004年05期
相关会议论文 前1条
1 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
相关期刊论文 前10条
1 胡诗未;李晓峰;徐伟;;基于主题词匹配频数的搜索引擎结果聚类算法[J];计算机工程与科学;2011年06期
2 陈永超;刘贵全;;一种基于命名实体的搜索结果聚类算法[J];计算机工程;2009年07期
3 李兴森;;后文档管理时代的增值策略[J];软件世界;2007年02期
4 沙芸;张国英;孟凡亮;;基于关键词提取的娱乐新闻文档去重算法[J];广西师范大学学报(自然科学版);2007年02期
5 林小俊;张猛;暴筱;李军;吴玺宏;;基于概念网络的短文本分类方法[J];计算机工程;2010年21期
6 刘德山;;一种改进的基于后缀树模型搜索结果聚类算法[J];计算机科学;2011年11期
7 张云;冯博琴;;利用标签的层次化搜索结果聚类方法[J];西安交通大学学报;2009年04期
8 章成志;;一种基于组合策略的聚类描述方法及其应用[J];情报科学;2009年07期
9 麻雪云;肖诗斌;王弘蔚;施水才;;基于关键名词短语聚类的中文搜索结果聚类[J];计算机工程与应用;2009年31期
10 黄微;高俊峰;;基于概念格的Web学术信息搜索结果的二次组织[J];现代图书情报技术;2010年05期
相关会议论文 前9条
1 雷庆;吴扬扬;;一种基于语义信息计算XML文档相似度的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 王洪俊;施水才;俞士汶;肖诗斌;;跨语言文档对齐[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 李斌;卢俊之;章成志;陈小荷;;基于聚类引擎的话题褒贬度计算[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 徐斌;顾宏斌;;一种基于模糊分类的多分类文档查找方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 廉鑫;林伟坚;张海威;袁晓洁;;基于双向路径约束模型的XML文档结构相似性度量[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 汪洋;张磊;章毅;;基于短语匹配的中文Web文档聚类算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 杨建武;陈晓鸥;;XML文档集的聚类研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 唐国瑜;夏云庆;张民;郑方;;基于跨语言广义向量空间模型的跨语言文档聚类方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关博士学位论文 前7条
1 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
2 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
3 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
4 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
5 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
6 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
7 武威;异质数据相似度学习及其在网络搜索中的应用[D];北京大学;2012年
相关硕士学位论文 前10条
1 黄黎;基于形式概念分析的搜索结果聚类研究[D];华中科技大学;2005年
2 赵嫣;信息检索中结构化文档相关度计算方法的研究[D];山东大学;2007年
3 仇绍刚;基于元搜索的知识获取方法与系统集成研究[D];大连理工大学;2009年
4 武娜;视频搜索结果分析及其可视化方法研究与应用[D];东华大学;2010年
5 滕海明;基于语义标记树的XML文档聚类研究[D];浙江大学;2011年
6 秦新国;电子作业管理和作业抄袭检测技术研究[D];南京师范大学;2007年
7 叶忠杰;基于课程知识本体的智能答疑系统的研究与开发[D];浙江工业大学;2007年
8 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
9 周云庆;基于维基百科的搜索结果挖掘[D];上海交通大学;2011年
10 程佳;热点新闻间关系的研究[D];上海交通大学;2011年
,本文编号:1517782
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1517782.html