当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于语句-词条矩阵的聚簇式动态增长聚类算法

发布时间:2018-07-16 12:53
【摘要】:W eb信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息。为此该文提出了一种基于语句词条矩阵的聚簇式动态增长聚类算法。该平面分割的算法的整个工作过程有3个步骤:预处理W eb数据,进行文本摘取和过滤处理;形成每个文档的语句词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类。对该算法进行了实验分析。结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性。
[Abstract]:Web information is growing exponentially, but the traditional search engine is difficult for users to find concise and accurate information. In this paper, a cluster dynamic growth clustering algorithm based on sentence entry matrix is proposed. The whole working process of the algorithm includes three steps: preprocessing Web data, text extraction and filtering, forming the statement entry matrix of each document and forming a matrix set of several documents. By clustering dynamic growth clustering algorithm, similar documents are clustered. The algorithm is analyzed experimentally. The results show that the algorithm has high accuracy for document clustering while maintaining document semantic connection.
【作者单位】: 兰州大学信息科学与工程学院 兰州大学信息科学与工程学院 兰州大学信息科学与工程学院
【分类号】:TP391.1;

【参考文献】

相关期刊论文 前3条

1 钟艳花,余伟红,余永权;Web文本挖掘系统及其关键技术研究[J];计算机工程与应用;2003年34期

2 徐建锁,王正欧;基于LSI和自组织神经网络的高效文本聚类方法[J];天津大学学报;2004年11期

3 刘立平,易华容,何文斌;一种基于向量空间模型的文本聚类方法[J];株洲师范高等专科学校学报;2004年05期

【共引文献】

相关期刊论文 前10条

1 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期

2 李俊华;;基于Web文本挖掘的高校教师个人主页系统研究与开发[J];大理学院学报;2011年04期

3 李向伟;仇德成;;数据挖掘技术在Web中的应用研究[J];电脑知识与技术;2006年02期

4 奠石镁;;文本数据挖掘系统原型方案研究[J];电脑知识与技术;2008年18期

5 邵良杉;付曙光;薛立军;;企业核心竞争力的Web挖掘[J];辽宁工程技术大学学报;2007年01期

6 李聪;;异度排列算法的原理以及应用[J];黑龙江科技信息;2011年32期

7 徐建民;成岳鹏;辛丽军;;一种基于术语簇和关联规则的文档聚类方法[J];计算机工程与应用;2007年05期

8 唐果;陈宏刚;;基于BBS热点主题发现的文本聚类方法[J];计算机工程;2010年07期

9 徐宏斌;王燕;;一种改进的静态取证数据挖掘算法[J];计算机时代;2009年04期

10 易华容;;基于SOM的电子商务中交易数据库二次聚类算法[J];计算机与现代化;2009年12期

相关博士学位论文 前5条

1 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年

2 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年

3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年

4 毕晓君;基于智能信息技术的纹理图象识别与生成研究[D];哈尔滨工程大学;2006年

5 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年

相关硕士学位论文 前10条

1 吴启纲;中文文本聚类算法的研究与实现[D];西安电子科技大学;2010年

2 张韦;基于语义的Web主题提取的研究[D];湖北工业大学;2011年

3 刘文静;基于标签词抽取的搜索结果聚类研究[D];北京邮电大学;2012年

4 付曙光;合作伙伴的Web挖掘系统研究[D];辽宁工程技术大学;2005年

5 任爽;基于XML和SVM的Web文本挖掘研究[D];大连理工大学;2006年

6 邱宇红;向量空间模型在医学文献相关性研究中的应用[D];中国医科大学;2006年

7 孙辉;中文人名搜索引擎的设计与实现[D];兰州大学;2006年

8 孙晓霞;蚁群算法理论研究及其在图像识别中的应用[D];哈尔滨工程大学;2006年

9 李自强;基于文本挖掘的Web信息检索研究[D];华北电力大学(河北);2007年

10 王礼刚;基于XML的Web文本数据挖掘研究[D];西南大学;2007年

【二级参考文献】

相关期刊论文 前4条

1 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期

2 徐宝文,张卫丰;数据挖掘技术在Web预取中的应用研究[J];计算机学报;2001年04期

3 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期

4 陈莉,焦李成;Internet/Web数据挖掘研究现状及最新进展[J];西安电子科技大学学报;2001年01期

【相似文献】

相关期刊论文 前10条

1 王升明,李淼;一种基于改进的自组织特征映射网络的文档聚类方法[J];计算机工程与应用;2005年03期

2 吴景岚,刘燕,朱文兴;一个K-均值文档聚类的改进算法[J];闽江学院学报;2004年02期

3 李旗;文档聚类智能代理搜索引擎的设计[J];现代情报;2004年02期

4 梁作鹏,吴文明,董逸生;一种基于结构信息总结树的XML文档聚类方法[J];应用科学学报;2005年01期

5 张晓滨,宋擒豹,沈钧毅;一种基于语义特征的Web文档检索方法[J];计算机工程与应用;2001年20期

6 韩建福;卢苇;;文档聚类在Web搜索结果中的应用研究[J];中国科技信息;2006年23期

7 王倩;;文档聚类技术在搜索引擎中的应用研究[J];图书馆学研究;2008年11期

8 万小军,杨建武,陈晓鸥;文档聚类中k-means算法的一种改进算法[J];计算机工程;2003年02期

9 王勋,刘君强;基于文档聚类的Web辅助浏览研究[J];情报学报;2004年02期

10 孙越恒;侯越先;何丕廉;;非线性维数约减算法在文档聚类中的应用[J];计算机应用;2008年02期

相关会议论文 前10条

1 唐国瑜;夏云庆;张民;郑方;;基于跨语言广义向量空间模型的跨语言文档聚类方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 周水庚;孙敬宇;胡运发;;一种文档聚类新方法[A];第十六届全国数据库学术会议论文集[C];1999年

3 伍赛;杨冬青;韩近强;张铭;王文清;冯英;;WCM:一种基于单词相关度的文档聚类新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

4 王晓宇;钱卫宁;张龙;周傲英;;XML DTD文档聚类研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

5 马辉民;李卫华;;Web文档聚类系统的实现方法探析[A];第10届计算机模拟与信息技术会议论文集[C];2005年

6 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

7 刘众奇;袁晓洁;张海威;杨娜;王敏辉;;阈值区间:一种基于XCLS和XCLSE的改进方案[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

8 王波;唐常杰;段磊;尹佳;左R,

本文编号:2126452


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2126452.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ba886***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com