中文Web文档聚类算法研究
[Abstract]:Based on the STC algorithm, a Chinese Web document clustering algorithm, STC-I, is proposed to cluster the retrieval results on-line and efficiently. In STC-I, the document set is removed from synonyms and synonyms. The same sentence method is used to reduce the dimension of the document. By calculating the similarity between the query keyword and the text, the time complexity of the STC is reduced and the accuracy of the STC clustering is improved by scoring the text that participates in the clustering. By comparing the accuracy and time complexity of STC-I and STC,AHC,K-Means, the results show that STC-I is better than STC,AHC and K-Means in terms of accuracy and time complexity.
【作者单位】: 南京理工大学计算机科学与技术学院;江苏大学计算机科学与通信工程学院;
【分类号】:TP391.1
【参考文献】
相关期刊论文 前2条
1 李江波;周强;陈祖舜;;汉语词典的快速查询算法研究[J];中文信息学报;2006年05期
2 刘泉凤,陆蓓,王小华;文本挖掘中聚类算法的比较研究[J];计算机时代;2005年06期
【共引文献】
相关会议论文 前3条
1 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
2 穆飞;李维佳;薛巍;舒继武;;一种分布式信息检索系统的设计与实现[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
3 孙宏纲;陆余良;;基于二元切分的互联网新闻主题词自动提取研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
相关硕士学位论文 前7条
1 陈丽珍;维文网络中不良文本信息检索、监控系统的研究[D];新疆大学;2006年
2 冯周;基于模糊信息处理的个性化文件搜索引擎算法研究与实现[D];电子科技大学;2007年
3 艾山·吾买尔;多语种—多媒体电子词典资源平台和大型英汉维电子词典的研究和实现[D];新疆大学;2007年
4 图格木勒;蒙古语语言资源库建设相关技术研究[D];内蒙古大学;2007年
5 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
6 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
7 张天勇;PE系统的自动化重构研究与实践[D];浙江大学;2008年
【二级参考文献】
相关期刊论文 前5条
1 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
2 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
3 杨文峰,陈光英,李星;基于PATRICIA tree的汉语自动分词词典机制[J];中文信息学报;2001年03期
4 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
5 李戈,邵峰晶,朱本浩;基于神经网络聚类的研究[J];青岛大学学报(工程技术版);2001年04期
【相似文献】
相关期刊论文 前10条
1 曾本胜,廉玉忠,,李世取;后缀树的平均高度[J];运筹与管理;1996年04期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 周水庚,关佶红,胡运发;基于文档实例的中文信息检索[J];计算机工程与应用;2000年10期
4 邓英,李明;Web数据挖掘技术及工具研究[J];计算机工程与应用;2001年20期
5 李睿,李明;Web数据挖掘技术探讨[J];甘肃科技;2001年03期
6 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
7 林鸿飞,杨元生;用户兴趣模型的表示和更新机制[J];计算机研究与发展;2002年07期
8 姜宁,宫秀军,史忠植;高维特征空间中文本聚类研究[J];计算机工程与应用;2002年10期
9 郑毅,吴斌,史忠植;基于概念空间的文本检索系统[J];计算机工程与应用;2002年12期
10 李家福,陆建江,张亚非;模糊聚类算法在汉语文本聚类中的应用[J];计算机工程;2002年04期
相关会议论文 前9条
1 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
2 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 邱立坤;程葳;龙志yN;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
5 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年
6 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
8 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[A];第三届科技政策与管理学术研讨会暨第二届科教发展战略论坛论文汇编[C];2007年
相关重要报纸文章 前2条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
相关博士学位论文 前6条
1 戈鹏;敏捷化CAPP系统原理、关键技术与应用实践[D];四川大学;2003年
2 何清;机器学习与文本挖掘若干算法研究[D];中国科学院研究生院(计算技术研究所);2002年
3 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
4 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
相关硕士学位论文 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
3 刘恒;程序中重复代码的自动检测[D];大连理工大学;2003年
4 刘立平;一种中文文本聚类方法的研究[D];湘潭大学;2003年
5 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
6 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
7 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
8 李建祥;智能网页推荐系统的相关技术研究[D];西南交通大学;2004年
9 缪嘉嘉;数据仓库的数据获取关键技术研究[D];国防科学技术大学;2003年
10 袁磊;基于概率模型的文本聚类[D];吉林大学;2005年
本文编号:2434625
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2434625.html