数据预处理方法在移动通信企业的应用研究
发布时间:2024-05-24 22:23
现实世界的数据往往是不完整,不一致和有噪音的,致使我们在进行数据挖掘之前必须进行一定的数据预处理工作。数据预处理的主要内容包括:数据清洗、数据集成、数据变换和数据规约。本文是在系统分析总结数据预处理各种方法的前提下,针对某移动通信公司离网用户数据共有70多张表,400多个属性,最高缺失率为28.3%,含记录最多的表有200多万条的特点,选用了数据预处理中的10余种方法对数据进行预处理的过程。 本文的主要工作如下: (1)文中首先提出了数据质量问题的概念,并对各种数据质量问题对应的数据预处理方法进行了总结。 (2)针对28.3%的数据缺失情况,放弃简单删除的传统做法。提出采用数据插补方法,并对各类数据插补方法进行对比分析,最终选取多重插补算法。由于应用插补的数据有683715条,属于大规模数据,为了保证插补效果,我们先通过小样本实验的方法,在比较插补效果后,确定了最佳插补次数,最终完成插补过程。得到了完整的并且近似真实的数据集。 (3)通过多重插补、属性子集选择、属性集成、属性构造、离散化数据、规范化数据、数据抽样等方法后,将得到的数据代入数据挖掘模型中,所获取的信息得到了项目方的充分肯...
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
本文编号:3981309
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图1-1论文组织结构图
出状织结构第的第第四章数据预处理方法在移动通数据预处理方法理论基础
图2-5聚类
[10]。通过函数来拟合数据,函数多为回归函数。回性回归。线性回归通过拟合两个属性间的最佳线来(可扩展到多个属性)。[10]。聚类是将处理对象的集合分组为多个由相似对到一组由数据对象组成的集合,即簇。如果有对象需要先验知识,即可直接形成簇并对簇进行描述。
图2-9数据立方体在数据挖掘中的挖掘主题可能只跟数据集中的部分属性有关,而数据集中
图2-9数据立方体挖掘主题可能只跟数据集中的部分属性有关,而属性子集选择即维规约,是从目标数据集中选择集,这一数据集的分布接近原分布。它减少了数式更易于理解。方法包括以下技术,如2-10图。图2-10属性子集选择选择[10,24]。这是在属性子集选择中使用较多的一
图4-4插补模式选择脚的目才大;五汞十廷如
定义分组变量,根据变量将数据集分成若干组分别进行语句定义VAR语句中的分类变量。分类变量既可以是型变量。OCMI<选项>;BY变量名或变量列表;CLASS变量名或变量列表;EM<选项>;FREQ变量名;MCMC<选项>;MCMC<选项>;MONOTONE<选....
本文编号:3981309
本文链接:https://www.wllwen.com/jingjilunwen/xxjj/3981309.html