当前位置:主页 > 科技论文 > 搜索引擎论文 >

网页搜索结果聚类与可视化

发布时间:2018-03-06 08:26

  本文选题:网页聚类 切入点:后缀树 出处:《南京大学学报(自然科学版)》2010年05期  论文类型:期刊论文


【摘要】:搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结果列表中选择所感兴趣的话题.针对这种状况,采用网页聚类技术对标题和摘要进行聚类后,并可视化地以树和图的方式向用户快速、全貌和直观地展示搜索结果,明显改善了用户搜索体验.在此基础上设计了网页聚类原型系统ECE(effective clustering engine),实验结果表明该算法具有聚类结果可读性好以及聚类准确度比较高的优点.
[Abstract]:Search engine has become the most commonly used tool for information retrieval on the Internet nowadays. The mainstream search engine returns the search results in the order of relevance to the user query, and the phenomenon of "one meaning multi-word" and "one word polysemy" exists in natural language. It is difficult for users to express their intentions clearly, which results in a long time choosing topics of interest from the list of results. In view of this situation, web page clustering technology is used to cluster the titles and abstracts. And visually display search results to users in the form of trees and graphs, with a quick, complete and intuitive view, Based on this, a web page clustering prototype system, ECE(effective clustering engineering, is designed. The experimental results show that the algorithm has the advantages of good readability of clustering results and high clustering accuracy.
【作者单位】: 同济大学嵌入式系统与服务计算教育部重点实验室计算机科学与技术系;
【基金】:国家自然科学基金(60475019,60970061) 博士学科点专项基金(20060247039)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前2条

1 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期

2 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期

【共引文献】

相关期刊论文 前10条

1 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期

2 王安志;李明东;李超;;各种聚类算法及改进算法的研究[J];电脑知识与技术;2008年25期

3 蔡坤;姜保庆;;关于文本挖掘中文本聚类算法的研究[J];福建电脑;2009年04期

4 刘云吉;施晓秋;;基于lucene的搜索引擎在Ajax中的应用[J];硅谷;2009年19期

5 陈庆枝;陈国龙;郭文忠;陈仕涛;;信息安全评估日志数据的一种混合聚类算法[J];重庆工学院学报(自然科学版);2009年10期

6 宗瑜;李明楚;江贺;;近似骨架导向的归约聚类算法[J];电子与信息学报;2009年12期

7 钟锐;;一种基于聚类与关联规则算法的DDoS攻击检测模型[J];赣南师范学院学报;2009年06期

8 孙英娟;杨柳;何昆鸟;;属性离散化算法研究[J];长春师范学院学报(人文社会科学版);2009年12期

9 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期

10 黄美璇;;一种基于Kmax的K-means改进算法[J];佛山科学技术学院学报(自然科学版);2010年02期

相关会议论文 前5条

1 向继;荆继武;高能;;一种自动搜索阈值的中文文本层次聚类方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

2 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 刘之涛;陈清才;孟宪军;王晓龙;;基于特征短语的网页在线聚类方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 庞秀丽;冯玉强;姜维;;电子商务个性化文档推荐技术研究[A];第十届中国管理科学学术年会论文集[C];2008年

5 余灿玲;王丽珍;张元武;;基于网格密度方向的聚类簇边缘精度加强算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

相关博士学位论文 前10条

1 周大镯;多变量时间序列的聚类、相似查询与异常检测[D];天津大学;2009年

2 周文君;舰船VDR人声识别技术研究[D];哈尔滨工程大学;2009年

3 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年

4 张长胜;求解规划、聚类和调度问题的混合粒子群算法研究[D];吉林大学;2009年

5 周,

本文编号:1574061


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1574061.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户875b2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com