基于数据约简与集成学习的两类非平衡大数据分类

发布时间:2021-11-19 23:39
  大数据时代已经到来,大数据的出现使得传统的机器学习算法无法在单机环境下完成训练。分类是机器学习和数据挖掘领域中最基本的学习任务,传统的分类算法都是在假设所处理的数据为平衡数据的前提下设计的,但在许多实际应用中,需要处理的数据常为非平衡数据。因此,研究非平衡数据分类问题,特别是大数据环境下的非平衡数据分类问题,具有重要的理论及应用价值。在非平衡问题中,根据处理数据所包含的类别数,可以将非平衡问题分为两类非平衡分类问题和多类非平衡分类问题。本文主要研究大规模数据环境下的两类非平衡分类问题,提出了基于MapReduce和Spark并行计算框架下的两种解决方案。具体地,本文工作主要包括以下四部分:(1)研究了X-means算法在大数据环境下的并行化问题,提出了基于MapReduce和Spark的大规模X-means自适应聚类算法。在两类非平衡大数据分类中,将负类大数据看作无类标数据集合,通过大规模X-means自适应聚类算法,自适应地对负类大数据进行聚类。(2)提出了基于MapReduce和Spark的大规模压缩模糊K-近邻算法。将大规模X-means算法得到的聚类结果视作有类标的数据集,使用... 

【文章来源】:河北大学河北省

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

基于数据约简与集成学习的两类非平衡大数据分类


研究技术路线图

组织结构图,运行机制,节点,对数


第二章相关研究基础15DataNode:HDFS中的数据节点。主要负责在NameNode的指挥下完成对HDFS中数据的管理。DataNode在对数据进行保存时,是以Block块为单位的,数据会被切分成若干个Block块保存在多个数据节点中,且HDFS设置了数据冗余,可以根据系统的参数设置,对数据进行水平复制,这样虽然会增加资源使用量,但除了可以提高数据安全性外,还可以提高HDFS对数据的存取速度。图2-1HDFS的组织结构图2-2SecondaryNameNode的运行机制SecondaryNameNode:HDFS中的检查节点。它的工作机制如图2-2所示,当HDFS

组织结构图,组织结构,对数,数据安全性


第二章相关研究基础15DataNode:HDFS中的数据节点。主要负责在NameNode的指挥下完成对HDFS中数据的管理。DataNode在对数据进行保存时,是以Block块为单位的,数据会被切分成若干个Block块保存在多个数据节点中,且HDFS设置了数据冗余,可以根据系统的参数设置,对数据进行水平复制,这样虽然会增加资源使用量,但除了可以提高数据安全性外,还可以提高HDFS对数据的存取速度。图2-1HDFS的组织结构图2-2SecondaryNameNode的运行机制SecondaryNameNode:HDFS中的检查节点。它的工作机制如图2-2所示,当HDFS

【参考文献】:
期刊论文
[1]基于MapReduce和上采样的两类非平衡大数据集成分类[J]. 翟俊海,张明阳,王陈希,刘晓萌,王耀达.  数据采集与处理. 2018(03)
[2]MapReduce与Spark用于大数据分析之比较[J]. 吴信东,嵇圣硙.  软件学报. 2018(06)
[3]Distributed and Weighted Extreme Learning Machine for Imbalanced Big Data Learning[J]. Zhiqiong Wang,Junchang Xin,Hongxu Yang,Shuo Tian,Ge Yu,Chenren Xu,Yudong Yao.  Tsinghua Science and Technology. 2017(02)
[4]面向近似近邻查询的分布式哈希学习方法[J]. 文庆福,王建民,朱晗,曹越,龙明盛.  计算机学报. 2017(01)
[5]基于RSBoost算法的不平衡数据分类方法[J]. 李克文,杨磊,刘文英,刘璐,刘洪太.  计算机科学. 2015(09)
[6]不均衡数据下基于SVM的故障检测新算法[J]. 陶新民,刘福荣,童智靖,杨立标.  振动与冲击. 2010(12)
[7]通过相似度支持度优化基于K近邻的协同过滤算法[J]. 罗辛,欧阳元新,熊璋,袁满.  计算机学报. 2010(08)
[8]一种改进的快速k-近邻分类算法[J]. 乔玉龙,潘正祥,孙圣和.  电子学报. 2005(06)



本文编号:3506114

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3506114.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eb126***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com