基于后缀树的Web检索结果聚类标签生成方法
本文选题:计算机应用 + 中文信息处理 ; 参考:《中文信息学报》2009年02期
【摘要】:对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。
[Abstract]:Clustering the retrieval results can facilitate users to find the information they need quickly from the search results. At present, a variety of clustering methods and systems have been widely used, but,Due to the poor readability and description of clustering tags, most of the existing methods are difficult to achieve the desired results.In this paper, a new idea is proposed, which focuses on how to produce good labels before clustering, and then cluster the retrieval results on the basis of the generated tags.For the result returned by search engine, we first establish a suffix tree, then calculate the scores of each phrase in the suffix tree, and select some phrases with the highest score as candidate labels.After the label is obtained, each result item returned by the search engine is assigned to the corresponding classification of the label it contains, and the final clustering is formed.Experiments show that our method is more effective.
【作者单位】: 北京大学计算机科学技术研究所;
【基金】:国家十一五资助项目(2006BAH02A10) 国家863计划资助项目(2008AA01Z421)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 魏福官;郑孝安;;一种基于知识的书面汉语自动分词方法[J];现代电力;1993年04期
2 龙艳花;郭武;戴礼荣;;采用支持向量机的说话者确认中的样本平衡[J];中文信息学报;2008年03期
3 木合亚提·尼亚孜别克;古力沙吾利;;哈萨克文信息处理的现状和发展方向[J];中文信息学报;2010年04期
4 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期
5 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期
6 朱晓旭;李培峰;朱巧明;刁红军;;一个适用于手持设备的多层汉字输入法模型[J];中文信息学报;2006年06期
7 扎西加;珠杰;;面向信息处理的藏文分词规范研究[J];中文信息学报;2009年04期
8 干俊伟,黄德根;汉语介词短语的自动识别[J];中文信息学报;2005年04期
9 刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai;潜在语义分析权重计算的改进[J];中文信息学报;2005年06期
10 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
相关会议论文 前10条
1 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 骆雄武;万小军;杨建武;吴於茜;;基于后缀树的Web检索结果聚类标签生成方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 徐印才;任立群;段元慧;任俊泉;;输血科智能管理系统的开发与应用[A];第四届全国临床检验学术会议论文汇编[C];2006年
5 丁力行;;2002年全国暖通空调计算机应用研讨会[A];2001年湖南省暖通空调制冷学术年会论文集[C];2001年
6 陈皓;郑利平;刘晓平;;模板在虚拟现实平台中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
7 于平;李汉彬;高长君;;应用ActiveX技术实现Surfer自动绘制等值线图[A];中国气象学会2007年年会天气预报预警和影响评估技术分会场论文集[C];2007年
8 何大治;谢步瀛;;基于子空间网络的人员疏散模型[A];中国图学新进展2007——第一届中国图学大会暨第十届华东六省一市工程图学学术年会论文集[C];2007年
9 缪峥红;周新蕾;;安全性关键软件的可靠性测试与安全性分析[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
10 石素卿;;京郊新农村发展电子商务的障碍与对策[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
相关重要报纸文章 前10条
1 卜建设、卢山;市计算机应用学会成立[N];唐山劳动日报;2010年
2 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
3 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
4 倪光南;活力重现的中文信息处理[N];计算机世界;2001年
5 齐悦;速记界泰斗唐亚伟 获中文信息处理领域最高科技奖[N];中国质量报;2006年
6 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
7 记者 韩晓玲邋通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
8 记者 段佳;中文信息处理技术加速前行[N];大众科技报;2009年
9 本报记者 毛国兵 通讯员 岚宇;亚伟速录:实现中文信息处理产业化的自主品牌[N];中国贸易报;2008年
10 袁钦玲;网吧专用计算机应用标准出台[N];中国计算机报;2006年
相关博士学位论文 前10条
1 陈守强;丁书文教授用药规律的计算机辅助分析[D];山东中医药大学;2005年
2 杨伟;邮运汽车运输组织优化与信息支持系统研究[D];西南交通大学;2005年
3 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
4 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
5 周卫华;面向中文信息处理的现代汉语动宾语义搭配研究[D];华中师范大学;2007年
6 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
7 李苏红;基于实体模型的工程图样数字化设计的研究[D];吉林大学;2007年
8 李晓燕;海量图像语义分析和检索技术研究[D];浙江大学;2009年
9 刘杰;泄漏发射的信息重建与防御对策[D];浙江大学;2004年
10 涂蓉;肝CT图像分析的临床与计算机应用研究[D];中南大学;2004年
相关硕士学位论文 前10条
1 陶东成;基于Linux和XIM协议的中文输入法服务器的实现及其应用[D];苏州大学;2004年
2 罗忠毅;数字化中医古籍的理想模式及其相关问题研究[D];成都中医药大学;2005年
3 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
4 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
5 傅成宏;现代汉语兼语结构的自动识别[D];南京师范大学;2007年
6 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
7 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
8 刘桂梅;周有光语文改革思想研究[D];山东师范大学;2005年
9 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
10 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
,本文编号:1735024
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1735024.html