当前位置:主页 > 科技论文 > 软件论文 >

基于Multi-Agent的分布式文本聚类模型

发布时间:2019-01-06 16:38
【摘要】:Internet网络大数据与日俱增,当前亟需设计出能够处理大规模半结构化和无结构化文本数据的新型聚类方法.现有工作的不足体现在:应用的文本集较为单一,对半结构和无结构的Web文本进行聚类的准确性较低,当文档规模较大时聚类的时效性无法得到保证.针对上述不足,提出新的基于群体智能的文本聚类模型Switch(a Swarm intelligence based text clustering algorithm),支持包括藏文、汉文、英文等多语言的文本聚类.基本思想为:构建文本的向量空间模型,借助自然语言处理和数据预处理技术得到由特征向量构成的文本集合;对群体智能文本聚类算法的参数进行初始化,不同智能体可以在二维文本空间上任意移动,计算其所在网格区域文本与其他样本的相似度,利用概率转换函数求取智能体拿起和放下样本的概率,进而实现文本聚类.提出分布式动态文本流聚类的multi-agent架构,将这一架构应用于群体智能文本聚类算法中,分布式工作环境被设计成相互通信的软agents集合,设计了相似度计算,智能体状态感知,文本解析三类智能体.通过解决智能体状态同步、处理器负载均衡和处理器之间通信的代价问题,将计算任务分成不同子任务,在多处理器上分布执行.此外,阐述了基于multi-agent的分布式群体智能文本聚类方法的工作原理,给出一种分布式通信架构,各种智能体相互通信,相互协作完成文本聚类工作.基于multi-agent通过JADE(Java Agent Development Framework)中间件实现集群上的分布式文本聚类,优势在于:分布式计算和大内存处理较单机具有更好的处理能力,借助JADE中间件能够使智能体间相互通信及协作,实现高效的文本聚类.在大量真实的半结构化包含藏文、汉文和英文多语言的Web文本数据集上进行实验,以藏文为例,实验结果表明:相比于k-means和单节点上的群体智能聚类算法,提出的分布式架构下文本聚类算法准确性平均高出12.2%和3.8%,时间代价平均缩减了73.0%和50.6%.在n个节点集群下agents数量介于150~250之间时,文本聚类时间代价近似可以达到单节点的1/n.
[Abstract]:With the increasing number of big data in Internet network, there is an urgent need to design a new clustering method which can deal with large scale semi-structured and unstructured text data. The shortcomings of the existing work are that the text set applied is relatively single, the accuracy of clustering semi-structured and unstructured Web texts is low, and the timeliness of clustering cannot be guaranteed when the document size is large. A new text clustering model (Switch (a Swarm intelligence based text clustering algorithm),) based on swarm intelligence is proposed to support text clustering in Tibetan, Chinese, English and other languages. The basic ideas are as follows: construct the vector space model of text and obtain the text set composed of feature vectors by natural language processing and data preprocessing technology; The parameters of the swarm intelligence text clustering algorithm are initialized. Different agents can move arbitrarily in the two-dimensional text space to calculate the similarity between the text in the grid region and other samples. The probabilistic transformation function is used to obtain the probability of the agent picking up and dropping the sample, and then the text clustering is realized. The multi-agent architecture of distributed dynamic text flow clustering is proposed. The architecture is applied to the swarm intelligence text clustering algorithm. The distributed working environment is designed as a soft agents set that communicates with each other. The similarity calculation and agent state awareness are designed. There are three kinds of agents for text parsing. By solving the problem of agent state synchronization, processor load balancing and communication between processors, computing tasks are divided into different sub-tasks and executed on multi-processors. In addition, the working principle of distributed swarm intelligence text clustering method based on multi-agent is described, and a distributed communication architecture is presented, in which various agents communicate with each other and cooperate with each other to complete text clustering. Based on multi-agent, distributed text clustering on cluster is realized by JADE (Java Agent Development Framework) middleware. The advantage of distributed computing and large memory processing is that distributed computing and large memory processing have better processing capability than single computer. With the help of JADE middleware, agents can communicate and cooperate with each other to achieve efficient text clustering. Experiments are carried out on a large number of real semi-structured Web text datasets containing Tibetan, Chinese and English languages. Taking Tibetan as an example, the experimental results show that compared with k-means and single-node swarm intelligence clustering algorithm, In the distributed architecture, the accuracy of the proposed text clustering algorithm is higher than that of the average of 12.2% and 3.8%, and the time cost is reduced by 73.0% and 50.6% on average. When the number of agents in n node clusters is between 150 and 250, the time cost of text clustering is approximately 1 / nnof that of a single node.
【作者单位】: 成都信息工程大学网络空间安全学院 成都信息工程大学管理学院 华东师范大学数据科学与工程学院 浙江大学计算机科学与技术学院 西南交通大学信息科学与技术学院 四川大学计算机学院
【基金】:国家自然科学基金(61772091,61165013,61363037) 教育部人文社会科学研究规划基金(15YJAZH058) 四川高校科研创新团队建设计划(18TD0027) 成都信息工程大学中青年学术带头人科研基金(J201701) 四川省科技计划项目(2018JY0448) 广西自然科学基金项目(2017JJD170122y)资助~~
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 乔少杰;韩楠;金澈清;高云君;李天瑞;唐常杰;康健;;基于Multi-Agent的分布式文本聚类模型[J];计算机学报;2018年08期

2 黄建宇;周爱武;肖云;谭天诚;;基于特征空间的文本聚类[J];计算机技术与发展;2017年09期

3 杨婉霞;孙理和;黄永峰;;结合语义与统计的特征降维短文本聚类[J];计算机工程;2012年22期

4 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期

5 张毓;陈军清;;基于深度特征语义学习模型的垃圾短信文本聚类研究[J];现代计算机(专业版);2018年07期

6 毕强;刘健;鲍玉来;;基于语义相似度的文本聚类研究[J];现代图书情报技术;2016年12期

7 吴锡坤;刘洋;;基于社交网络中非平衡文本聚类方法的研究[J];科技创新导报;2016年13期

8 李向东;刘晓斌;武利平;常洪梅;;面向路线图编制的模糊均值文本聚类挖掘方法研究[J];河北工业大学学报;2011年03期

9 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[J];中文信息学报;2007年02期

10 车蕾;杨小平;;多特征融合文本聚类的新闻话题发现模型[J];国防科技大学学报;2017年03期

相关会议论文 前10条

1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年

2 张越今;丁丁;;敏感话题发现中的增量型文本聚类模型[A];第30次全国计算机安全学术交流会论文集[C];2015年

3 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年

4 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

5 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

6 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

7 林灵;张百霞;李彦文;王耘;李志勇;;基于文本挖掘与计算机辅助药物设计的中药候选新药发现方法[A];第十二次全国中西医结合实验医学专业委员会暨第七次湖南省中西医结合神经科专业委员会学术年会论文集[C];2015年

8 孙承杰;朱文焕;林磊;刘远超;;BBS短文本聚类技术研究[A];第五届全国信息检索学术会议论文集[C];2009年

9 赵飞;周渝慧;;基于Multi-Agent的电价预测支持系统设计[A];2009电力行业信息化年会论文集[C];2009年

10 张刚;殷国富;邓克文;李火生;;基于Multi-Agent的复杂结构产品设计模型[A];全国第13届计算机辅助设计与图形学(CAD/CG)学术会议论文集[C];2004年

相关博士学位论文 前10条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年

3 李春梅;基于Internet/Intranet和Multi-Agent的企业经营战略群体决策支持系统研究[D];昆明理工大学;2001年

4 何增镇;基于Multi-Agent与博弈论的城市交通控制诱导系统及其关键技术研究[D];中南大学;2010年

5 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

6 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年

7 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年

8 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

9 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年

10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

相关硕士学位论文 前10条

1 邹雪君;基于全覆盖粒计算的文本特征选择和聚类研究[D];太原理工大学;2018年

2 蒋乔薇;面向特定领域的话题检测系统的设计与实现[D];北京邮电大学;2018年

3 王惠;基于LDA主题模型的文本聚类研究[D];兰州大学;2018年

4 张瑞琴;基于Hadoop云计算平台的文本聚类并行化研究[D];沈阳工业大学;2018年

5 王丰;基于GPU并行的K-MEANS算法研究及其在文本聚类的应用[D];武汉邮电科学研究院;2018年

6 王伟超;基于Hadoop的中文微博热点话题发现方法研究[D];东北大学;2016年

7 方自云;基于hSync算法的文本聚类方法研究[D];武汉理工大学;2015年

8 王宇;基于统计学习方法的高斯LDA模型的文本聚类研究[D];华侨大学;2017年

9 李舒颖;移动应用缺陷报告的文本聚类技术研究[D];南京大学;2017年

10 张天宇;基于改进CFSFDP算法的电信投诉文本聚类方法研究[D];杭州电子科技大学;2017年



本文编号:2403046

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2403046.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2ab64***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com