当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于后缀树的中文网页层次聚类方法

发布时间:2018-11-29 13:02
【摘要】:为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。
[Abstract]:In order to facilitate users to browse the search results generated by search engines, a hierarchical clustering method for Chinese web pages, STCC algorithm, is proposed by combining STC algorithm and chameleon algorithm. In this method, Jacobian coefficient is used to modify the method of calculating the similarity of basic classes in STC algorithm, and then the chameleon algorithm is used to cluster web pages according to the similarity matrix of basic classes. The experimental results show that the clustering accuracy of STCC algorithm is improved by nearly 10% compared with that of STC algorithm, which avoids the chain effect of single link algorithm and is suitable for large scale web page clustering.
【作者单位】: 天津大学计算机学院 天津大学计算机学院 阜新市气象局
【基金】:国家自然科学基金资助项目(90604013)
【分类号】:TP393.092;TP301.6

【参考文献】

相关期刊论文 前1条

1 郭伟,唐晓君,刘万军;一种基于划分的聚类算法分析与改进[J];辽宁工程技术大学学报;2004年06期

【共引文献】

相关期刊论文 前2条

1 刘文婷;滕奇志;;后缀树聚类在专用搜索引擎中的应用研究与改进[J];成都信息工程学院学报;2010年03期

2 王祝文;刘菁华;任莉;;基于K均值动态聚类分析的地球物理测井岩性分类方法[J];东华理工大学学报(自然科学版);2009年02期

相关博士学位论文 前1条

1 李德顺;基于广义集对分析的系统危险性评价研究[D];东北大学 ;2010年

相关硕士学位论文 前5条

1 谭华琴;基于蚁群算法的数据挖掘方法研究[D];武汉理工大学;2006年

2 何春霞;三角不等式原理对聚类算法的改进[D];兰州大学;2006年

3 李艳;基于改进的K-均值算法的朴素贝叶斯分类及应用[D];合肥工业大学;2007年

4 刘念涛;基于蚁群算法的聚类分析方法的研究及应用[D];山东师范大学;2008年

5 孙志叶;A-FCM算法的模型设计与研究[D];华中师范大学;2011年

【二级参考文献】

相关期刊论文 前4条

1 徐燕,单波,王颖;对一种矢量量化聚类算法的改进及应用[J];华北电力大学学报;2001年03期

2 周水庚,周傲英,曹晶,胡运发;一种基于密度的快速聚类算法[J];计算机研究与发展;2000年11期

3 孙才志,王敬东,潘俊;模糊聚类分析最佳聚类数的确定方法研究[J];模糊系统与数学;2001年01期

4 李昕,郑宇,江芳泽;用改进的RPCL算法提取聚类的最佳数目[J];上海大学学报(自然科学版);1999年05期

【相似文献】

相关期刊论文 前10条

1 王霞,杨炳儒;Web搜索结果挖掘的研究与应用[J];计算机工程与应用;2003年14期

2 傅鹏;张德运;陈海诠;董皓;;基于后缀树词序列核挖掘Web文档[J];微电子学与计算机;2005年12期

3 马辉民 ,胡凌 ,郭潇;文本聚类在Web挖掘系统中的应用[J];统计与决策;2004年06期

4 左鹏,徐和龙,于国庆;Web挖掘在FDSS中的应用探讨[J];计算机与现代化;2001年05期

5 汪全莉;陈代春;;Web数据挖掘在网络教育中的应用[J];中国科技资源导刊;2008年02期

6 陈建华,包煊;Web挖掘系统的设计与实现[J];计算机工程;2002年08期

7 易高翔,程耕国;数据挖掘在Web智能化中应用研究[J];计算机工程与设计;2005年01期

8 陈振,郑诚,朱小栋;一种基于关联分类方法的Web用户兴趣预测[J];微机发展;2005年05期

9 汪全莉;陈代春;;Web挖掘在网络教育中的应用研究[J];大学图书情报学刊;2008年03期

10 朱慧爽;;Web挖掘在纺织业电子商务中的应用[J];山东纺织经济;2009年04期

相关会议论文 前10条

1 杨建武;;Web检索结果的层次聚类研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

2 吾守尔·斯拉木;吴启南;;基于层次聚类方法[A];第六届全国计算机应用联合学术会议论文集[C];2002年

3 彭楠峗;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

5 董燕;;Web挖掘对电子商务网站建设的影响[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年

6 骆雄武;万小军;杨建武;吴於茜;;基于后缀树的Web检索结果聚类标签生成方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

7 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年

8 务孟庆;高军;王腾蛟;杨冬青;;WD-STC:一种基于网络词典的WEB新闻文档后缀树聚类算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

9 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年

10 朱牧;孟凡荣;周勇;;一种确定聚类数目的自组织特征映射网络[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年

相关重要报纸文章 前10条

1 张进;演进中的开放源代码数据库[N];网络世界;2004年

2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年

3 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年

4 ;Web收获:吸纳有用信息[N];计算机世界;2004年

5 文/俟名;“搜索”激战正醋[N];计算机世界;2004年

6 马安宁;试用“按病种床日”收费[N];健康报;2007年

7 王军清邋王磊;整体PE逼近40倍 市场步入高估值阶段[N];上海证券报;2007年

8 ;搜索引擎竞争加剧[N];计算机世界;2003年

9 本报记者 叶依;别让“概念奶粉”闹懵了[N];健康时报;2003年

10 张蕊;走出搜索引擎认识上的误区[N];中国计算机报;2000年

相关博士学位论文 前10条

1 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年

2 王晓宇;Web搜索与Web缓存的若干关键问题研究[D];复旦大学;2003年

3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

4 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年

5 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

6 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年

7 李玲娟;数据挖掘技术在入侵检测系统中的应用研究[D];苏州大学;2008年

8 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年

9 杨春梅;基因表达数据聚类分析算法研究和应用[D];天津大学;2006年

10 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年

相关硕士学位论文 前10条

1 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年

2 李凯;Web挖掘在教学资源搜索引擎中的应用研究[D];东北师范大学;2007年

3 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年

4 黄荣兵;RBF神经网络在Web挖掘中的应用研究[D];太原理工大学;2004年

5 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年

6 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年

7 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年

8 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年

9 段晓峰;网站日志的数据挖掘[D];重庆大学;2003年

10 牟刚;基于XML的Web信息挖掘技术的研究[D];重庆大学;2004年



本文编号:2365064

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2365064.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9157a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com