当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于名词短语的检索结果多层聚类方法

发布时间:2018-07-23 17:52
【摘要】:对检索结果聚类可以方便用户快速浏览搜索引擎返回结果。为了提取主题表达能力和可读性强的类别标签,获取高质量的聚类结果,提出基于名词短语的检索结果多层聚类方法:提取名词短语作为候选类别标签,根据候选类别标签分布情况生成基础类,再使用具有线性时间复杂度的一趟聚类算法对基础类进行多层聚类。与基于命名实体的方法、STC和Lingo算法的对比实验表明:提出方法在类别标签的可读性、有效性以及聚类性能上都优于以上3种方法。
[Abstract]:Clustering the retrieval results can facilitate users to quickly browse the search engine to return the results. In order to extract category labels with strong expression ability and readability, and obtain high quality clustering results, a multilayer clustering method based on noun phrase retrieval results is proposed: noun phrases are extracted as candidate category labels. The basic classes are generated according to the distribution of candidate class labels, and then a one-trip clustering algorithm with linear time complexity is used to cluster the base classes. Compared with the named entity based method and Lingo algorithm, the proposed method is superior to the above three methods in terms of readability, validity and clustering performance.
【作者单位】: 广东外语外贸大学信息学院;
【基金】:国家自然科学基金资助项目(60673191) 广东省高等学校自然科学研究重点项目(06Z012) 广东省自然科学基金资助项目(9151026005000002)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前1条

1 张清军,朱才连;基于统计的中文文本主题自动提取研究[J];四川大学学报(工程科学版);2004年03期

【共引文献】

相关期刊论文 前3条

1 张清军,朱才连;基于LBS的中文自动文摘技术研究[J];四川大学学报(工程科学版);2004年04期

2 张清军,朱才连,侯林山;信息抽取技术在LBS中的应用[J];四川大学学报(工程科学版);2005年01期

3 黄振晗;;基于文档特征的Web主题文本提取[J];现代计算机(专业版);2009年08期

相关会议论文 前2条

1 孙宏纲;陆余良;;基于二元切分的互联网新闻主题词自动提取研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年

相关硕士学位论文 前6条

1 王平;基于自组织特征映射的检索结果聚类研究[D];哈尔滨工业大学;2009年

2 李琳;基于粗糙集和遗传算法的聚类方法研究[D];广西师范大学;2009年

3 康艳;中文图书内容索引计算机编制的研究与系统实现[D];南京农业大学;2008年

4 王世昆;中医症状病机实体识别及其关系挖掘研究[D];厦门大学;2009年

5 史进玲;基于粒计算的决策表属性约简与规则提取研究[D];河南师范大学;2009年

6 万涛;图书馆管理系统的设计与实现[D];吉林大学;2009年

【二级参考文献】

相关期刊论文 前6条

1 薛翠芳,郭炳炎;汉语文本特征词的抽取方法[J];情报学报;2000年03期

2 韩客松,王永成;一种用于主题提取的非线性加权方法[J];情报学报;2000年06期

3 韩客松,王永成;中文全文标引的主题词标引和主题概念标引方法[J];情报学报;2001年02期

4 韩客松,王永成,滕伟;Web页面中文文本主题的自动提取研究[J];情报学报;2001年02期

5 王志梅,张俊林,李秋山;Web检索结果快速聚类方法的研究与实现[J];计算机工程与设计;2004年12期

6 于琨,糜仲春,蔡庆生;可应用于互联网的自学习中文关键词抽取算法[J];中国科学技术大学学报;2002年03期

【相似文献】

相关期刊论文 前10条

1 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期

2 蔡明德;钩玄提要信息检索学——《信息检索系列教程》总序[J];大连民族学院学报;2005年02期

3 王宁;浅析信息检索服务模式的转变[J];图书馆学刊;2005年01期

4 李淑慧 ,张恩;漫谈信息检索的方式[J];山东档案;2005年03期

5 张福泉;;信息检索的黄金时代[J];中国计算机用户;2006年05期

6 杨则正;信息检索和交换的手段[J];管理科学文摘;1996年03期

7 黄浩耘;信息检索中的科学美与信息检索教学中的美育问题[J];四川师范学院学报(哲学社会科学版);2002年05期

8 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期

9 ;《农业信息检索指南》出版[J];图书馆学研究;1995年02期

10 蔡泽平;远程信息检索的网络协调[J];中国信息导报;1997年09期

相关会议论文 前10条

1 崔安颀;岑荣伟;张敏;马少平;;基于URL特征的动态页面聚类[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年

2 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年

3 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

4 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年

5 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年

6 陈志玮;肖诗斌;施水才;王昕;;一种基于HTML位置信息的查询扩展技术[A];第三届学生计算语言学研讨会论文集[C];2006年

7 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

8 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年

9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年

10 杨凝清;;信息时代的医学信息教育模式初探[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(下)[C];2003年

相关重要报纸文章 前10条

1 希安;微软试水信息检索[N];经济日报;2004年

2 王丹红;数学:为因特网建立秩序[N];科学时报;2009年

3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年

4 潘希;文本数据流聚类:在海量信息中挖掘真金[N];科学时报;2008年

5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年

6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年

7 刘立新;信息社会技术前瞻[N];学习时报;2006年

8 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年

9 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年

10 黄 浩;政府门户网站应引进CRM意识[N];中国国门时报;2006年

相关博士学位论文 前10条

1 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

2 董道国;高维数据索引结构研究[D];复旦大学;2005年

3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年

4 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年

5 马马杜 桑卡雷;基于多智能体的流体动力行业虚拟联盟信息检索的研究[D];浙江大学;2002年

6 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年

7 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年

8 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年

9 邵虹;基于内容的医学图像检索关键技术研究[D];东北大学;2005年

10 李文杰;基于本体的分布式知识库系统研究[D];天津大学;2004年

相关硕士学位论文 前10条

1 杨文忠;基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用[D];湖南大学;2005年

2 金瑜;基于Web的光学专业数据库的信息检索[D];合肥工业大学;2004年

3 刘红星;分布式系统中的文本信息检索技术研究[D];清华大学;2004年

4 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年

5 熊建国;对英汉名词短语的统一解释[D];中国人民解放军外国语学院;2003年

6 王晓u&;基于代表点的数据和文本聚类新方法的研究[D];天津大学;2006年

7 黄晓倩;Z39.50客户系统的设计与实现[D];华中师范大学;2001年

8 王智超;基于边界距离的文本聚类方法研究[D];沈阳航空工业学院;2008年

9 刘扬;网络环境下商务信息检索研究[D];黑龙江大学;2003年

10 吴曾;文本主题切分技术和ROCCHIO模型在信息检索中应用的研究[D];中国科学院研究生院(软件研究所);2004年



本文编号:2140174

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2140174.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户58b0a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com