基于Multi-Agent的分布式文本聚类模型
[Abstract]:With the increasing number of big data in Internet network, there is an urgent need to design a new clustering method which can deal with large scale semi-structured and unstructured text data. The shortcomings of the existing work are that the text set applied is relatively single, the accuracy of clustering semi-structured and unstructured Web texts is low, and the timeliness of clustering cannot be guaranteed when the document size is large. A new text clustering model (Switch (a Swarm intelligence based text clustering algorithm),) based on swarm intelligence is proposed to support text clustering in Tibetan, Chinese, English and other languages. The basic ideas are as follows: construct the vector space model of text and obtain the text set composed of feature vectors by natural language processing and data preprocessing technology; The parameters of the swarm intelligence text clustering algorithm are initialized. Different agents can move arbitrarily in the two-dimensional text space to calculate the similarity between the text in the grid region and other samples. The probabilistic transformation function is used to obtain the probability of the agent picking up and dropping the sample, and then the text clustering is realized. The multi-agent architecture of distributed dynamic text flow clustering is proposed. The architecture is applied to the swarm intelligence text clustering algorithm. The distributed working environment is designed as a soft agents set that communicates with each other. The similarity calculation and agent state awareness are designed. There are three kinds of agents for text parsing. By solving the problem of agent state synchronization, processor load balancing and communication between processors, computing tasks are divided into different sub-tasks and executed on multi-processors. In addition, the working principle of distributed swarm intelligence text clustering method based on multi-agent is described, and a distributed communication architecture is presented, in which various agents communicate with each other and cooperate with each other to complete text clustering. Based on multi-agent, distributed text clustering on cluster is realized by JADE (Java Agent Development Framework) middleware. The advantage of distributed computing and large memory processing is that distributed computing and large memory processing have better processing capability than single computer. With the help of JADE middleware, agents can communicate and cooperate with each other to achieve efficient text clustering. Experiments are carried out on a large number of real semi-structured Web text datasets containing Tibetan, Chinese and English languages. Taking Tibetan as an example, the experimental results show that compared with k-means and single-node swarm intelligence clustering algorithm, In the distributed architecture, the accuracy of the proposed text clustering algorithm is higher than that of the average of 12.2% and 3.8%, and the time cost is reduced by 73.0% and 50.6% on average. When the number of agents in n node clusters is between 150 and 250, the time cost of text clustering is approximately 1 / nnof that of a single node.
【作者单位】: 成都信息工程大学网络空间安全学院 成都信息工程大学管理学院 华东师范大学数据科学与工程学院 浙江大学计算机科学与技术学院 西南交通大学信息科学与技术学院 四川大学计算机学院
【基金】:国家自然科学基金(61772091,61165013,61363037) 教育部人文社会科学研究规划基金(15YJAZH058) 四川高校科研创新团队建设计划(18TD0027) 成都信息工程大学中青年学术带头人科研基金(J201701) 四川省科技计划项目(2018JY0448) 广西自然科学基金项目(2017JJD170122y)资助~~
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 乔少杰;韩楠;金澈清;高云君;李天瑞;唐常杰;康健;;基于Multi-Agent的分布式文本聚类模型[J];计算机学报;2018年08期
2 黄建宇;周爱武;肖云;谭天诚;;基于特征空间的文本聚类[J];计算机技术与发展;2017年09期
3 杨婉霞;孙理和;黄永峰;;结合语义与统计的特征降维短文本聚类[J];计算机工程;2012年22期
4 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
5 张毓;陈军清;;基于深度特征语义学习模型的垃圾短信文本聚类研究[J];现代计算机(专业版);2018年07期
6 毕强;刘健;鲍玉来;;基于语义相似度的文本聚类研究[J];现代图书情报技术;2016年12期
7 吴锡坤;刘洋;;基于社交网络中非平衡文本聚类方法的研究[J];科技创新导报;2016年13期
8 李向东;刘晓斌;武利平;常洪梅;;面向路线图编制的模糊均值文本聚类挖掘方法研究[J];河北工业大学学报;2011年03期
9 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[J];中文信息学报;2007年02期
10 车蕾;杨小平;;多特征融合文本聚类的新闻话题发现模型[J];国防科技大学学报;2017年03期
相关会议论文 前10条
1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 张越今;丁丁;;敏感话题发现中的增量型文本聚类模型[A];第30次全国计算机安全学术交流会论文集[C];2015年
3 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
4 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 林灵;张百霞;李彦文;王耘;李志勇;;基于文本挖掘与计算机辅助药物设计的中药候选新药发现方法[A];第十二次全国中西医结合实验医学专业委员会暨第七次湖南省中西医结合神经科专业委员会学术年会论文集[C];2015年
8 孙承杰;朱文焕;林磊;刘远超;;BBS短文本聚类技术研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 赵飞;周渝慧;;基于Multi-Agent的电价预测支持系统设计[A];2009电力行业信息化年会论文集[C];2009年
10 张刚;殷国富;邓克文;李火生;;基于Multi-Agent的复杂结构产品设计模型[A];全国第13届计算机辅助设计与图形学(CAD/CG)学术会议论文集[C];2004年
相关博士学位论文 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
3 李春梅;基于Internet/Intranet和Multi-Agent的企业经营战略群体决策支持系统研究[D];昆明理工大学;2001年
4 何增镇;基于Multi-Agent与博弈论的城市交通控制诱导系统及其关键技术研究[D];中南大学;2010年
5 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
6 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
7 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
8 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
9 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
相关硕士学位论文 前10条
1 邹雪君;基于全覆盖粒计算的文本特征选择和聚类研究[D];太原理工大学;2018年
2 蒋乔薇;面向特定领域的话题检测系统的设计与实现[D];北京邮电大学;2018年
3 王惠;基于LDA主题模型的文本聚类研究[D];兰州大学;2018年
4 张瑞琴;基于Hadoop云计算平台的文本聚类并行化研究[D];沈阳工业大学;2018年
5 王丰;基于GPU并行的K-MEANS算法研究及其在文本聚类的应用[D];武汉邮电科学研究院;2018年
6 王伟超;基于Hadoop的中文微博热点话题发现方法研究[D];东北大学;2016年
7 方自云;基于hSync算法的文本聚类方法研究[D];武汉理工大学;2015年
8 王宇;基于统计学习方法的高斯LDA模型的文本聚类研究[D];华侨大学;2017年
9 李舒颖;移动应用缺陷报告的文本聚类技术研究[D];南京大学;2017年
10 张天宇;基于改进CFSFDP算法的电信投诉文本聚类方法研究[D];杭州电子科技大学;2017年
,本文编号:2403046
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2403046.html