当前位置:主页 > 科技论文 > 搜索引擎论文 >

KNN-FCM聚类算法在中文搜索引擎文本过滤中的应用

发布时间:2018-11-20 20:29
【摘要】:目前,大多数搜索引擎都是用相关度或page-rank或HITS(Hyperlink-Induced Topic Search)算法对匹配的结果进行排序,然后以列表的方式呈现给用户。事实表明:其索引质量不高,对所收集的信息缺乏有效的分类处理,用户面对成千上万的搜索结果无法一一查看,而真正符合需要的搜索结果常常因为排在后面而被漏检,返回的结果只有极少部分得到了用户的有效利用。文章提出运用基于K近邻的模糊C均值算法(以下简称KNN-FCM)对搜索引擎的初始结果进行自动聚类,系统再针对用户作出的适时反馈进行相应的输出调整,从而方便用户查找信息。
[Abstract]:At present, most search engines use correlation degree or page-rank or HITS (Hyperlink-Induced Topic Search) algorithm) to sort the matching results and present them to users in the form of lists. The facts show that the index quality is not high, the information collected is not effectively classified, the user can not view thousands of search results, and the search results that really meet the needs are often missed because they are at the bottom of the list. Only a few of the returned results are effectively utilized by the user. In this paper, the fuzzy C-means algorithm based on K-nearest neighbor (KNN-FCM) is proposed to cluster the initial results of search engine automatically, and then the system adjusts the output according to the timely feedback made by users. Thus, it is convenient for users to find information.
【作者单位】: 华中师范大学信息管理系 华中师范大学信息管理系
【基金】:国家社科基金项目(06BTQ024)研究成果之一
【分类号】:TP391.3

【参考文献】

相关期刊论文 前1条

1 张惟皎,刘春煌,李芳玉;聚类质量的评价方法[J];计算机工程;2005年20期

【共引文献】

相关期刊论文 前10条

1 李丹丹;褚丽丽;;加权共协矩阵聚类融合研究[J];科技和产业;2010年01期

2 宋云昌;;基于分类的聚类方法研究及其应用[J];电脑编程技巧与维护;2011年10期

3 王家耀;谢明霞;郭建忠;陈科;;基于相似性保持和特征变换的高维数据聚类改进算法[J];测绘学报;2011年03期

4 梁红;;利用划分方法进行混合数据聚类[J];地理空间信息;2011年06期

5 吕宗磊;王建东;李莹;宰云峰;;一种基于模态逻辑的聚类结果评价方法[J];计算机研究与发展;2008年09期

6 王小华;楼佳;;基于迭代分类的聚类结果改进方法[J];计算机工程;2010年13期

7 杨燕;靳蕃;KAMEL Mohamed;;聚类有效性评价综述[J];计算机应用研究;2008年06期

8 王磊;汪西莉;刘高霞;赵琳;;一种结合半监督的改进自适应亲和传播聚类[J];计算机应用研究;2010年12期

9 谈丽;王建东;;长项优先的产生算法——改进的Apriori算法[J];计算机与现代化;2007年08期

10 袁可红;李艳晓;郭海湘;诸克军;;一种用于储层含油性识别的蚁群聚类算法[J];计算机工程;2011年13期

相关会议论文 前1条

1 张勇;彭怡;李君;石勇;;基于多目标决策的聚类算法有效性评价[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年

相关博士学位论文 前4条

1 吕宗磊;对聚类及聚类评价若干问题的研究[D];南京航空航天大学;2009年

2 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年

3 王广云;肿瘤基因芯片表达数据分析相关问题研究[D];国防科学技术大学;2009年

4 赵国冬;嵌入式系统弹性应对方法研究[D];哈尔滨工程大学;2011年

相关硕士学位论文 前10条

1 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年

2 楼佳;中文文本聚类的评价与改进研究[D];杭州电子科技大学;2009年

3 刘小丹;基于自组织神经网络的外刊采购标段划分研究[D];哈尔滨工业大学;2010年

4 叶海军;模糊聚类分析技术及其应用研究[D];合肥工业大学;2006年

5 张静乐;大规模组合优化问题蚁群算法应用研究[D];郑州大学;2006年

6 李德强;CRM中基于聚类的客户细分、获取及保持研究[D];南京航空航天大学;2007年

7 张宁;基于网格和密度的聚类算法研究[D];大连理工大学;2007年

8 孙业勤;基于数据分区的密度聚类算法应用研究[D];大连理工大学;2008年

9 李莹;聚类结果评价方法与聚类知识提取技术的研究[D];南京航空航天大学;2008年

10 李敏;基于网格和密度的数据流聚类算法研究[D];武汉理工大学;2009年

【二级参考文献】

相关期刊论文 前1条

1 于剑,程乾生;模糊聚类方法中的最佳聚类数的搜索范围[J];中国科学E辑:技术科学;2002年02期

【相似文献】

相关期刊论文 前10条

1 相春雷;;2009年中国搜索引擎市场趋势分析[J];软件世界;2010年02期

2 ;揭秘搜索引擎收录网站的秘密[J];计算机与网络;2010年Z1期

3 魏蕾如;;基于搜索引擎的网络中文信息检索工具评价[J];数字技术与应用;2011年06期

4 马s,

本文编号:2345928


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2345928.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d370d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com