基于K-means与FCA的网页文本聚类算法的研究
本文关键词:基于K-means与FCA的网页文本聚类算法的研究
【摘要】:搜索引擎针对某个查询条件返回给用户的查询结果可能数量非常巨大,要从这么多的返回信息中找到所需要的信息是很困难的。研究聚类算法是为了帮助用户更好地查询到自己所需要的和感兴趣的信息。提出采用基于Kmeans与FCA的网页文本聚类算法,并分析了两种算法各自的优势与缺点,为研究更优的网页文本聚类算法提供依据。
【作者单位】: 攀枝花学院;
【基金】:攀枝花学院校级项目(2012YB36)
【分类号】:TP391.1
【正文快照】: 0引言随着互联网的普及,人们对互联网的依赖程度提高,网络成为人们获取信息的一个重要的途径。当我们想查阅资料的时候就可以打开搜索引擎输入所要搜索的关键字。但是目前很多信息是保存在文本文件中的,这就降低了搜索查询的速度。由此,人们开始对文本聚类、信息过滤和信息检
【参考文献】
中国期刊全文数据库 前7条
1 毛韶阳;李肯立;;优化K-means初始聚类中心研究[J];计算机工程与应用;2007年22期
2 袁方;周志勇;宋鑫;;初始聚类中心优化的k-means算法[J];计算机工程;2007年03期
3 徐义峰;陈春明;徐云青;;一种改进的k-均值聚类算法[J];计算机应用与软件;2008年03期
4 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
5 陈俊;吴绍春;盛春健;;基于概念格的聚类分析[J];上海大学学报(自然科学版);2008年04期
6 唐明珠;张远平;杨佳;;概念相似度在文本模糊聚类中的应用[J];计算机工程与设计;2008年03期
7 韩晓红;胡_g;;K-means聚类算法的研究[J];太原理工大学学报;2009年03期
【共引文献】
中国期刊全文数据库 前10条
1 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
2 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
3 杨薇;;基于PPC-GA的细分模型在用电客户划分中的应用[J];鞍山师范学院学报;2011年02期
4 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期
5 李晓方;武仲科;樊亚春;周明全;柳勇光;;一种新的用于三维检索的快速邻域搜索方法[J];北京师范大学学报(自然科学版);2011年05期
6 章林柯;崔立林;;潜艇机械噪声源分类识别的小样本研究思想及相关算法评述[J];船舶力学;2011年08期
7 孙英娟;杨柳;何昆鸟;;属性离散化算法研究[J];长春师范学院学报(人文社会科学版);2009年12期
8 张仲明;于明光;郭东伟;;基于聚类的神经网络规则抽取算法[J];吉林大学学报(信息科学版);2010年05期
9 陈庆枝;陈国龙;郭文忠;陈仕涛;;信息安全评估日志数据的一种混合聚类算法[J];重庆工学院学报(自然科学版);2009年10期
10 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
中国重要会议论文全文数据库 前10条
1 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年
2 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
3 刘保政;汪定伟;;基于多因素的相近距离聚类方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
4 张立涛;张宇峰;;基于聚类分析的大型桥梁结构健康监测数据异常识别研究[A];第21届全国结构工程学术会议论文集第Ⅱ册[C];2012年
5 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
6 王钧慧;罗乐;马琳;王宽全;李乃民;张大鹏;;基于分形技术的虹膜纹理特征提取[A];中国中西医结合学会诊断专业委员会2009’年会论文集[C];2009年
7 孙承杰;朱文焕;林磊;刘远超;;BBS短文本聚类技术研究[A];第五届全国信息检索学术会议论文集[C];2009年
8 余灿玲;王丽珍;张元武;;基于网格密度方向的聚类簇边缘精度加强算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
9 刘尊洋;汪作来;王自荣;余大斌;孙晓泉;;基于谱系法改进FCM的仿造迷彩主色提取方法[A];第九届全国光电技术学术交流会论文集(上册)[C];2010年
10 池晶晶;黄坚;杜博文;;基于VSP分布的北京道路划分[A];第七届中国智能交通年会优秀论文集——智能交通技术[C];2012年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
4 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年
5 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
6 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
7 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
8 陈彬;面向DEVS的多范式建模与仿真关键技术研究与实现[D];国防科学技术大学;2010年
9 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年
10 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
2 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
3 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
4 李芳;脑机接口中脑电信号特征提取及分类算法研究[D];大连理工大学;2010年
5 刘萍;软件体系结构恢复的研究与实现[D];大连理工大学;2010年
6 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
7 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年
8 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年
9 罗佳;基于SIFT的人脸识别研究[D];湘潭大学;2010年
10 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前9条
1 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
2 裴继红,范九伦,谢维信;聚类中心的初始化方法[J];电子科学学刊;1999年03期
3 刘少辉,胡斐,贾自艳,史忠植;一种基于Rough集的层次聚类算法[J];计算机研究与发展;2004年04期
4 余建桥;张帆;;基于数据场改进的PAM聚类算法[J];计算机科学;2005年01期
5 孙士保;秦克云;;改进的k-平均聚类算法研究[J];计算机工程;2007年13期
6 谢志鹏,刘宗田;概念格的快速渐进式构造算法[J];计算机学报;2002年05期
7 唐明珠;张远平;杨佳;;一种基于概念相似度的文本模糊聚类方法[J];科学技术与工程;2007年05期
8 唐立新,杨自厚,王梦光;用遗传算法改进聚类分析中的K-平均算法[J];数理统计与应用概率;1997年04期
9 汤效琴,戴汝源;数据挖掘中聚类分析的技术方法[J];微计算机信息;2003年01期
中国硕士学位论文全文数据库 前2条
1 赵文兵;基于概念格及其扩展模型的数据挖掘研究[D];合肥工业大学;2002年
2 杨丽;基于动态多值背景的概念格及其约简方法的研究[D];西南交通大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 薄文彦;付文兰;张凤英;;聚类算法的改进的研究[J];网络安全技术与应用;2011年06期
2 彭厚文;杨爽;何凤成;;基于聚类算法的并行化研究[J];电脑知识与技术;2009年24期
3 彭松行;;基于描述优先算法的Web搜索结果聚类系统研究[J];心智与计算;2010年04期
4 陈斌;;数据仓库技术在现代化支付系统数据分析中的应用[J];微型电脑应用;2007年06期
5 周彩兰;冯斌;;Web数据挖掘在搜索引擎中的应用[J];软件导刊;2007年17期
6 张效娟;;k-means算法的改进和在保险业CRM中的应用[J];大连交通大学学报;2008年01期
7 陈兴;;K-means算法在图书流通系统中的应用[J];计算机时代;2008年11期
8 菅小艳;;基于特征词的农作物文本的句子聚类[J];太原师范学院学报(自然科学版);2008年01期
9 石云平;;聚类K-means算法的应用研究[J];国外电子测量技术;2009年08期
10 顾洪博;赵万平;;数据挖掘算法性能优化的研究与应用[J];长春理工大学学报(自然科学版);2010年01期
中国重要会议论文全文数据库 前10条
1 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
2 贾彦国;李培德;;Web检索结果聚类算法的改进[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
3 陈宇;王强;;聚类算法在Web文本挖掘中的应用研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
4 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
7 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
8 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
10 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国重要报纸全文数据库 前10条
1 博文邋译;你的隐私 搜索引擎知道[N];计算机世界;2007年
2 杨洁;搜索引擎营销市场生变[N];中国计算机报;2007年
3 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年
4 ;法国挑战谷歌推出卫星地图搜索引擎[N];人民日报;2006年
5 MirrorCity.net技术总监 姚浩;让搜索引擎回归最初梦想[N];中国文化报;2008年
6 本报记者 操秀英;国双科技以技术加服务赢得市场[N];科技日报;2009年
7 赵敏;“鱼群理论”破解搜索营销谜局[N];中国企业报;2007年
8 本报记者 樊哲高;搜索引擎三国纷争 中文市场两军对垒[N];中国电子报;2009年
9 EndTo;优化Meta讨好搜索引擎[N];电脑报;2009年
10 本报记者 马文方;Yebol:从思维科学导出搜索引擎[N];中国计算机报;2010年
中国博士学位论文全文数据库 前10条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
7 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
8 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 周登朋;搜索引擎搜索结果的聚类研究[D];上海交通大学;2007年
2 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
3 谢可;物流配送系统中聚类算法的研究与应用[D];浙江大学;2006年
4 何春霞;三角不等式原理对聚类算法的改进[D];兰州大学;2006年
5 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
6 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
7 白瑾;基于群体特性的搜索方法研究[D];武汉理工大学;2011年
8 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
9 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
10 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
,本文编号:1211602
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1211602.html