当前位置:主页 > 科技论文 > 软件论文 >

分布式KNN算法在微信公众号分类中的应用

发布时间:2018-08-23 21:16
【摘要】:针对微信公众号数据量大幅增长与从事微信活动的人们对其有效信息获取效率低下的问题,提出对微信公众号信息进行梳理并快速并行化分类以及打标签的方法。首先,该方法在介绍微信公众号实际应用的前提下,以经典K最近邻(KNN)分类算法为基础,实践并分析了单机KNN算法在效率上的不足;然后,采用Hadoop平台实现了基于MapReduce模型的KNN算法,对比了单机与分布式的效率以及对K值的调优,实验中的样本训练集通过人为指定,文本相似度的判别分为分词、特征词提取、权重计算、测试向量与训练向量夹角计算等步骤。在24个类别基础上,通过对1 000万条公众号数据分类实验,为每个公众号打上了单标签或多标签,优化后的分类准确率达到82%,其中与生活相关的公众号数量占比达70%以上。研究表明使用分类后的结果,信息针对特定人群传播,传播的转化率有所提升;分布式KNN算法在微信公众号数据处理方面比单机算法具有更高的效率和鲁棒性。
[Abstract]:In view of the problem that the amount of data of public number of WeChat increases greatly and the people engaged in WeChat activities have low efficiency in obtaining effective information, a method of sorting and tagging the information of public number of WeChat is put forward. First of all, on the basis of introducing the practical application of WeChat Public number, based on the classical K-nearest neighbor (KNN) classification algorithm, the paper puts into practice and analyzes the efficiency deficiency of the single-machine KNN algorithm. The KNN algorithm based on MapReduce model is implemented by using Hadoop platform. The efficiency of single machine and distributed system and the optimization of K value are compared. The sample training set is artificially assigned, and the text similarity can be divided into word segmentation and feature word extraction. Weight calculation, test vector and training vector angle calculation and other steps. On the basis of 24 categories, 10 million public number data were classified with single label or multiple label. The accuracy of the optimized classification reached 82%, in which the number of public numbers related to life accounted for more than 70% of Prida. The results show that the information is transmitted to a specific population and the conversion rate is improved. The distributed KNN algorithm is more efficient and robust than the single algorithm in the public number data processing of WeChat.
【作者单位】: 西南石油大学计算机科学学院;
【基金】:国家安全生产总局项目(sichuan-0008-2016AQ,sichuan-0009-2016AQ)
【分类号】:TP391.1

【参考文献】

相关期刊论文 前7条

1 李正杰;黄刚;;基于Hadoop平台的SVM_KNN分类算法的研究[J];计算机技术与发展;2016年03期

2 王金华;喻辉;产文;周向东;施伯乐;;基于KNN+层次SVM的文本自动分类技术[J];计算机应用与软件;2016年02期

3 董春涛;李文婷;沈晴霓;吴中海;;Hadoop YARN大数据计算框架及其资源调度机制研究[J];信息通信技术;2015年01期

4 黄黎;顾筠;;基于Hadoop平台的并行化数据分类算法研究[J];制造业自动化;2014年14期

5 牛晓太;;基于KNN算法和10折交叉验证法的支持向量选取算法[J];华中师范大学学报(自然科学版);2014年03期

6 史i8;耿晨;齐勇;;一种具有容错机制的MapReduce模型研究与实现[J];西安交通大学学报;2014年02期

7 岳金媛;徐金安;张玉洁;;面向专利文献的汉语分词技术研究[J];北京大学学报(自然科学版);2013年01期

【共引文献】

相关期刊论文 前10条

1 王荣丽;侯秀萍;;基于优先级权重的Hadoop YARN调度算法[J];吉林大学学报(信息科学版);2017年04期

2 彭宏恩;;基于Yarn的资源调度算法研究[J];福建电脑;2017年04期

3 曾沁;李永生;;基于分布式计算框架的风暴三维追踪方法[J];计算机应用;2017年04期

4 肖斌;王锦阳;任启强;;分布式KNN算法在微信公众号分类中的应用[J];计算机应用;2017年S1期

5 张越;王东波;朱丹浩;;面向食品安全突发事件汉语分词的特征选择及模型优化研究[J];数据分析与知识发现;2017年02期

6 段宏湘;张秋余;张墨逸;;基于归一化互信息的FCBF特征选择算法[J];华中科技大学学报(自然科学版);2017年01期

7 于金良;朱志祥;李聪颖;;Hadoop MapReduce新旧架构的对比研究综述[J];计算机与数字工程;2017年01期

8 刘国涛;张燕平;徐晨初;;一种优化覆盖中心的三支决策模型[J];山东大学学报(理学版);2017年03期

9 聂得欣;;Hadoop系统运行机制研究[J];河南财政税务高等专科学校学报;2016年04期

10 冯晓川;隋新;;支持向量机耦合韦伯局部描述符的图像伪造检测算法[J];计算机工程与设计;2016年07期

【二级参考文献】

相关期刊论文 前10条

1 武霞;董增寿;孟晓燕;;基于大数据平台hadoop的聚类算法K值优化研究[J];太原科技大学学报;2015年02期

2 郭明玮;赵宇宙;项俊平;张陈斌;陈宗海;;基于支持向量机的目标检测算法综述[J];控制与决策;2014年02期

3 李丽萍;;并行支持向量机[J];计算机光盘软件与应用;2013年24期

4 侯玉婷;彭进业;郝露微;王瑞;;基于KNN的特征自适应加权自然图像分类研究[J];计算机应用研究;2014年03期

5 闫永刚;马廷淮;王建;;KNN分类算法的MapReduce并行化实现[J];南京航空航天大学学报;2013年04期

6 PENG NanBo;ZHANG YanXia;ZHAO YongHeng;;A SVM-kNN method for quasar-star classification[J];Science China(Physics,Mechanics & Astronomy);2013年06期

7 杨卓荦;;基于YARN构建多功能分布式集群[J];程序员;2013年06期

8 张玉芳;万斌候;熊忠阳;;文本分类中的特征降维方法研究[J];计算机应用研究;2012年07期

9 钱网伟;;基于MapReduce的ID3决策树分类算法研究[J];计算机与现代化;2012年02期

10 黄小龙;;改进的支持向量机无线网络安全检测算法模型[J];科技通报;2012年02期

【相似文献】

相关期刊论文 前10条

1 张晓亮;赵平;徐冠青;林日明;;基于一种优化的KNN算法在室内定位中的应用研究[J];电子设计工程;2013年07期

2 周朴雄;;用于WEB文档分类的并行KNN算法[J];计算机工程与应用;2008年25期

3 郁春江;;基于特征选择的KNN算法在煤炭勘查工作中的应用[J];煤炭技术;2013年12期

4 周靖;刘晋胜;;一种采用类相关度优化距离的KNN算法[J];微计算机应用;2010年11期

5 孙晓燕;张化祥;计华;;用于不均衡数据集分类的KNN算法[J];计算机工程与应用;2011年28期

6 谷萧君;;基于改进KNN算法的价格预测模型研究[J];电脑知识与技术;2010年33期

7 刘科;;基于KNN算法的文本分类[J];科技经济市场;2009年06期

8 钱强;庞林斌;高尚;;一种基于改进型KNN算法的文本分类方法[J];江苏科技大学学报(自然科学版);2013年04期

9 王西平;;基于KNN算法对在校生考研预测模型的应用研究[J];信息通信;2014年03期

10 邵莉;;基于粗糙集与改进KNN算法的文本分类方法的研究[J];计算机与现代化;2012年02期

相关硕士学位论文 前4条

1 杨帆;基于改进KNN算法的室内WIFI定位技术研究[D];西北工业大学;2016年

2 陈凯;基于加权KNN算法的降水相似预报方法研究与实现[D];南京航空航天大学;2014年

3 林U_锋;文本分类中基于概念聚合的KNN算法优化问题研究[D];广西大学;2013年

4 张飞;基于KNN算法的文本分类系统的设计与实现[D];华中科技大学;2011年



本文编号:2199942

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2199942.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户72d24***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com