当前位置:主页 > 科技论文 > 搜索引擎论文 >

改进后缀树的中文检索结果聚类研究

发布时间:2017-12-26 10:57

  本文关键词:改进后缀树的中文检索结果聚类研究 出处:《计算机工程与应用》2014年21期  论文类型:期刊论文


  更多相关文章: 检索结果聚类 后缀树 聚类标签 中文检索 聚类


【摘要】:检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。
【作者单位】: 北京林业大学信息学院;
【分类号】:TP391.3
【正文快照】: 1引言随着网络信息的爆炸式增长,人们在网上使用搜索引擎查找信息时,搜索引擎会按照一定的方法将所有相关网页排序后呈现给用户。目前,大家经常使用的Google(http://www.google.com.hk/)、百度(http://www.baidu.com/)都是将结果以一定方式排列后呈现给用户[1]。如果查询词的

【参考文献】

相关期刊论文 前3条

1 刘文婷;滕奇志;;后缀树聚类在专用搜索引擎中的应用研究与改进[J];成都信息工程学院学报;2010年03期

2 骆雄武;万小军;杨建武;吴於茜;;基于后缀树的Web检索结果聚类标签生成方法[J];中文信息学报;2009年02期

3 张红鹰;;基于模糊处理的中文文本关键词提取算法[J];现代图书情报技术;2009年05期

【共引文献】

相关期刊论文 前8条

1 刘文婷;滕奇志;;后缀树聚类在专用搜索引擎中的应用研究与改进[J];成都信息工程学院学报;2010年03期

2 赵俊杰;汪丽;王平水;;基于自动文摘的论文抄袭检测研究(英文)[J];电脑与电信;2010年02期

3 刘德山;;一种改进的基于后缀树模型搜索结果聚类算法[J];计算机科学;2011年11期

4 苏冲;陈清才;王晓龙;孟宪军;;基于最大频繁项集的搜索引擎查询结果聚类算法[J];中文信息学报;2010年02期

5 邹志华;田生伟;禹龙;冯冠军;;改进的维吾尔语Web文本后缀树聚类[J];中文信息学报;2013年02期

6 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期

7 吴夙慧;成颖;郑彦宁;潘云涛;;基于N元语法的英文学术文献聚类标签抽取算法[J];现代图书情报技术;2011年Z1期

8 罗宏;陈黎;王亚强;朱洪波;韩国辉;于中华;;基于查询相关性分析的检索结果聚类算法[J];小型微型计算机系统;2011年10期

相关博士学位论文 前1条

1 刘钰峰;异构信息网络检索技术研究[D];湖南大学;2014年

相关硕士学位论文 前10条

1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年

2 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年

3 刘文静;基于标签词抽取的搜索结果聚类研究[D];北京邮电大学;2012年

4 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年

5 祁童;“九三学社”天津市委员会网站管理系统的设计与实现[D];华东师范大学;2009年

6 吴夙慧;基于引用分析的学术检索系统改进研究[D];南京大学;2012年

7 国玮玮;基于网络资源的未登录词扩展研究[D];安徽大学;2012年

8 余骁捷;新闻播报节目的内容自动标注系统[D];清华大学;2011年

9 巩玲玲;英语试题关键词重要性评价算法研究[D];北方工业大学;2013年

10 毛新武;基于组合特征的中文新闻网页关键词提取研究[D];北京林业大学;2013年

【二级参考文献】

相关期刊论文 前10条

1 马张华,陈文广;查询优化与动态自动聚类系统[J];大学图书馆学报;2005年03期

2 郭伟,唐晓君,刘万军;一种基于划分的聚类算法分析与改进[J];辽宁工程技术大学学报;2004年06期

3 王灿辉;张敏;马少平;黄宇;;基于相邻词的中文关键词自动抽取[J];广西师范大学学报(自然科学版);2007年02期

4 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期

5 骆雄武;万小军;杨建武;吴於茜;;基于后缀树的Web检索结果聚类标签生成方法[J];中文信息学报;2009年02期

6 靖培栋;田亮;;聚类在搜索引擎中的应用[J];情报理论与实践;2006年04期

7 杨安生;;基于倒排表的中文全文检索研究[J];情报探索;2009年07期

8 方清华;;信息检索加权理论与技术:基于VSM模型的分析[J];情报杂志;2008年06期

9 张敏;耿焕同;王煦法;;一种利用BC方法的关键词自动提取算法研究[J];小型微型计算机系统;2007年01期

10 刘华;;基于文本分类中特征提取的领域词语聚类[J];语言文字应用;2007年01期

【相似文献】

相关期刊论文 前10条

1 曾本胜,廉玉忠,,李世取;后缀树的平均高度[J];运筹与管理;1996年04期

2 黄影;;一种有效的后缀树建立方法[J];电子科技;2013年10期

3 赵杰文;原娇杰;;数据挖掘中后缀树算法的应用研究[J];焦作大学学报;2007年03期

4 黄影;;一种有效的后缀树建立方法[J];中国电子教育;2013年03期

5 乔百友,葛健,王国仁,韩东红;并行后缀树的构造及查询算法[J];东北大学学报;2004年03期

6 彭静;翟英;冯爽;;后缀树算法在舆情聚类中的应用[J];河北科技大学学报;2012年01期

7 葛健;王国仁;于戈;;后缀树的并行构造算法[J];计算机科学;2004年05期

8 曲文龙;杨炳儒;张克君;;基于广义后缀树的事件序列频繁情节挖掘算法[J];北京科技大学学报;2006年05期

9 王秉政;苏晓珂;张素智;;一种基于后缀树的简洁关联规则挖掘有效剪枝方法[J];郑州轻工业学院学报(自然科学版);2011年03期

10 董云耀;李笑;;基于后缀树的知识点间关联规则挖掘算法[J];杭州电子科技大学学报;2006年01期

相关会议论文 前1条

1 务孟庆;高军;王腾蛟;杨冬青;;WD-STC:一种基于网络词典的WEB新闻文档后缀树聚类算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

相关硕士学位论文 前10条

1 郭海涛;用加强的后缀数组查找MUM[D];西安电子科技大学;2007年

2 王学;基因组中最大唯一匹配的查找算法研究[D];西安电子科技大学;2009年

3 王坚;基于后缀数组的滑动窗口匹配压缩改进算法研究[D];华中科技大学;2012年

4 荣元媛;改进后缀树的中文检索结果聚类系统[D];北京林业大学;2013年

5 董丽霞;基因组比对中若干改进算法研究[D];西安电子科技大学;2009年

6 唐德昌;基于串核的蛋白质分类算法的研究与实现[D];哈尔滨工业大学;2008年

7 张任文;生物序列索引结构的研究与实现[D];哈尔滨工业大学;2006年

8 张吉;基于后缀树模型的流文本表示研究及其应用[D];中国科学院研究生院(计算技术研究所);2005年

9 赵丽红;后缀数组在维、哈、柯搜索引擎中的应用[D];新疆大学;2012年

10 买买提依明·哈斯木;基于后缀树的维吾尔文网页聚类算法的设计与实现[D];新疆大学;2011年



本文编号:1336945

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1336945.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户786f5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com