基于Hadoop的CM-Selection文本分类系统的技术研究与实现

发布时间:2021-03-12 21:37
  随着互联网技术的快速发展,网络信息呈现出爆发式增长。大量的广告信息、有害信息以及无用的垃圾信息也随之掺杂在巨大的数据流量之中,使得人们通过网络轻松获取可用信息的方式变得越来越难,网络体验越来越差。为了提高获取可用信息的速度,很多学者进行了大量的研究,采取了很多卓有成效的办法,文本分类技术就是其中的一个重要的手段。目前,常用的文本分类方法是基于有监督学习算法提供的分类功能,其面对海量数据,具有分类速度慢、准确率低、分类功能单一的问题。针对这一亟待解决的问题,本文提出CTF(Chinese Text Fast,快速中文文本)分类算法、HA-SVM(High Accuracy Support Vector Machine,高准确度支持向量机)分类算法和CMSelection(Chinese Multiple Selection,中文多选择)文本分类系统。论文主要工作如下:(1)依据文本标题代表文本类别这一特点,利用分词、去停用词、Word2Vec模型训练、类别队列等技术提出CTF分类算法。该算法是一种快速分类算法,能够满足快速分类需求,可以在时间复杂度为O(n)的情况下完成分类,还可以将分类... 

【文章来源】:武汉邮电科学研究院湖北省

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

基于Hadoop的CM-Selection文本分类系统的技术研究与实现


NameNode运行原理图

基于Hadoop的CM-Selection文本分类系统的技术研究与实现


MapReduce工作流程图

基于Hadoop的CM-Selection文本分类系统的技术研究与实现


MapReduce简单流程图

【参考文献】:
期刊论文
[1]基于云计算的Web数据挖掘Hadoop仿真平台研究[J]. 王勃,徐静.  电子设计工程. 2018(02)
[2]基于特征词向量的短文本聚类算法[J]. 刘欣,佘贤栋,唐永旺,王波.  数据采集与处理. 2017(05)
[3]二次约束下的边界约束非凸二次规划问题的最优化算法[J]. 韩艳娜,黄杰英.  科技通报. 2017(05)
[4]中文自然语言处理与计算机的结合问题研究[J]. 钟磊.  数字技术与应用. 2017(02)
[5]基于Word2vec的微博短文本分类研究[J]. 张谦,高章敏,刘嘉勇.  信息网络安全. 2017(01)
[6]基于SVM的中文文本分类系统的设计与实现[J]. 张昭楠.  电子设计工程. 2016(16)
[7]基于WordNet的语义相似度算法改进研究[J]. 沈国祥.  软件导刊. 2016(05)
[8]中文维基百科的实体分类研究[J]. 徐志浩,惠浩添,钱龙华,朱巧明.  中文信息学报. 2015(05)
[9]SVM核函数与选择算法[J]. 赵丹.  数字技术与应用. 2014(09)
[10]改进的基于平衡二叉决策树的SVM多分类算法[J]. 林志杰,余春艳.  小型微型计算机系统. 2014(05)

硕士论文
[1]短文本相似度的关键技术研究[D]. 刘令强.广西师范大学 2016
[2]基于数据关系的SVM多分类方法研究[D]. 梁志.山西大学 2013
[3]开源中文分词器的比较研究[D]. 黄翼彪.郑州大学 2013
[4]关于凸二次规划若干算法的研究[D]. 王建芳.大连海事大学 2008



本文编号:3079021

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3079021.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2d8fd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com