一种基于Nutch的网页聚类系统的设计与实现
本文选题:Nutch + 聚类 ; 参考:《计算机工程与应用》2011年05期
【摘要】:设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。
[Abstract]:In this paper, a search result clustering system is designed, which can deal with the search results of Nutch in both Chinese and English environments. The system is based on k-means algorithm and suffix tree clustering algorithm, and is a Nutch search engine. This paper presents a search engine result clustering system based on TF-IDF weight calculation and text clustering module, and compares the k-means algorithm with the suffix tree algorithm through experiments.
【作者单位】: 武汉科技大学中南分校信息工程学院;
【分类号】:TP311.13
【参考文献】
相关硕士学位论文 前1条
1 张吉;基于后缀树模型的流文本表示研究及其应用[D];中国科学院研究生院(计算技术研究所);2005年
【二级参考文献】
相关期刊论文 前5条
1 王映,常毅,谭建龙,白硕;基于N元汉字串模型的文本表示和实时分类的研究与实现[J];计算机工程与应用;2005年05期
2 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
3 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
4 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
5 卜东波,白硕,李国杰;文本聚类中权重计算的对偶性策略[J];软件学报;2002年11期
【相似文献】
相关期刊论文 前10条
1 付光;;面向招聘信息主题搜索引擎的研究与设计[J];广西教育;2011年18期
2 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期
3 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
4 贾丙静;吴长勤;葛华;;Web文本聚类的研究与实现[J];长春师范学院学报;2011年06期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前1条
1 梁一平;刘连芳;周小平;申文明;;网络蜘蛛Nutch的分析、定制与二次开发[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
相关硕士学位论文 前10条
1 陈菊红;搜索引擎返回结果聚类技术的研究与实现[D];西南交通大学;2009年
2 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
3 鱼健榕;基于Nutch的搜索引擎系统的研究与实现[D];北京邮电大学;2011年
4 贺鹏程;基于Nutch技术的辛亥革命本体搜索引擎的设计与实现[D];华中师范大学;2011年
5 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
6 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年
7 刘凤灵;基于Nutch的漏洞垂直搜索引擎[D];北京邮电大学;2011年
8 任妤;基于Nutch的科技主题搜索引擎Crawler的研究与实现[D];内蒙古科技大学;2011年
9 任妤;基于Nutch的科技主题搜索引擎Crawler的研究与实现[D];内蒙古科技大学;2011年
10 陈勃;基于Nutch的企业搜索引擎的研究与实现[D];华中科技大学;2011年
,本文编号:1800311
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1800311.html