当前位置:主页 > 科技论文 > 软件论文 >

面向大规模非平衡数据集的潜在家庭宽带用户识别问题研究

发布时间:2024-12-21 22:20
  大数据时代下,挖掘数据潜在的价值己成为各行各业提高核心竞争力的必要手段。在通信行业,坐拥丰富数据资源的运营商需要借助数据挖掘技术提高市场竞争力,比如把数据挖掘用于捕捉目标人群特点并实现精准营销。潜在家庭宽带用户识别是一个具有代表性的运营商精准营销问题。通信运营商希望通过分析终端数据锁定潜在家庭宽带用户,但由于其数据集存在类别不平衡等问题,传统分类算法性能无法满足实用需求。本文以潜在家庭宽带用户识别问题为例,以国内某通信运营商提供的实际数据集为基础,对非平衡数据集的二分类问题进行研究。首先,本文分析了数据集特点以及分类难点,并结合家庭宽带应用场景的实际需求设计了一种复合型算法。针对数据集的高维特点,本文采用在高维数据上具有强鲁棒性的最大熵机(Maximal Entropy Machine,MEM)二分类模型作为核心分类器。考虑到家庭宽带用户识别的强实时性需求特点,本文将算法设计为两个阶段,不同阶段MEM模型分别结合不同的非平衡问题处理方法。在离线学习阶段,本文令MEM模型与SMOTE模型协同工作,提出SMOTE-MEM模型并基于历史数据搭建初始分类器;在在线学习阶段,本文提出一个在线学习框...

【文章页数】:78 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 课题研究背景及意义
        1.1.1 大数据时代下的通信行业
        1.1.2 数据挖掘概述
        1.1.3 非平衡数据集分类问题
    1.2 课题相关理论的研究现状
        1.2.1 非平衡数据集的研究现状
        1.2.2 在线学习的研究现状
        1.2.3 核方法加速的研究现状
    1.3 本文主要工作及贡献
    1.4 论文框架
第二章 潜在家庭宽带用户识别问题概述
    2.1 研究背景
    2.2 潜在家宽用户识别问题
        2.2.1 系统架构描述
        2.2.2 数据集描述
    2.3 数据预处理
    2.4 性能评价指标
    2.5 本章小结
第三章 一种基于MEM分类器的家宽用户识别算法
    3.1 MEM二分类模型
        3.1.1 支持向量机
        3.1.2 MEM模型
    3.2 Pegasos优化算法
    3.3 潜在家宽用户识别算法框架设计
    3.4 离线学习阶段
        3.4.1 SMOTE模型
        3.4.2 SMOTE-MEM模型
    3.5 在线学习阶段
        3.5.1 Different Cost模型
        3.5.2 DC-MEM模型
        3.5.3 在线学习
    3.6 在潜在家宽用户数据集上的应用
        3.6.1 传统机器学习算法简介
        3.6.2 实验及结果分析
    3.7 在KEEL非平衡数据集上的应用
        3.7.1 KEEL非平衡数据集
        3.7.2 实验及结果分析
    3.8 本章小结
第四章 面向大规模非平衡数据集分类问题的核函数加速方法
    4.1 随机傅里叶特征算法
    4.2 基于随机傅里叶特征的核函数加速
    4.3 在非平衡数据集上的应用
        4.3.1 基于潜在家宽用户数据集的实验
        4.3.2 基于KEEL非平衡数据集的实验
    4.4 本章小结
第五章 总结与展望
    5.1 本文工作总结
    5.2 未来工作展望
参考文献
致谢
附录 攻读硕士学位期间发表的论文



本文编号:4018993

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4018993.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户92467***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com