当前位置:主页 > 经济论文 > 企业经济论文 >

基于集成学习的数据库营销研究

发布时间:2017-10-07 16:47

  本文关键词:基于集成学习的数据库营销研究


  更多相关文章: 数据库营销 分类预测 有监督聚类 集成学习


【摘要】:数据库营销指企业根据数据库中存储的消费者信息分析和识别可能对营销活动或产品感兴趣的消费者(目标客户),并使用电子邮件、短信、电话等方式进行客户深度挖掘与关系维护,或与客户建立一对一的互动沟通关系,以便企业更好地获取用户偏好,确立市场定位,调整合适的产品方向和跟踪市场管理。目前,利用数据库营销对用户进行筛选分类进而进行有针对性的营销活动已经成为很多企业提高营销效率,降低营销成本的重要手段。从数据挖掘的角度,我们可以将数据库营销中准确定位目标客户视为分类预测问题,即根据消费者的特征属性预测其是否购买产品或购买产品的概率,因此,提高数据库营销模型的预测精度具有非常重要的现实意义和实际价值。类别不均衡是数据库营销过程中普遍存在的问题,其主要表现为某一类别的数据量远低于其它类别的数据量。类别不均衡这一数据特性使得传统的分类预测模型在实际应用过程中面临数据匮乏,数据淹没等现象,从而降低数据库营销的效果。目前研究主要从数据,算法和评价标准三个层面对数据库营销模型进行改进以提高其分类预测的准确度:数据层面主要通过改变采样方式进而改变数据集的类别分布来解决这一问题,如过采样,欠采样,SMOTE算法等;算法层面则通过改善算法的内部结构或相关参数来提高算法的适应性进而改善其在非平衡数据集上的表现,主要包括代价敏感学习,改进的SVM算法,集成学习等等;评价标准主要通过使用F-measure,ROC曲线,命中率和升力曲线等等,这些评价方法和传统的方法相比,不再单一的关注分类预测模型在数据集上整体的表现,因此更适合类别不均衡问题的评价。在这些改进的方法中,集成学习在非平衡数据集上具有更好的分类预测能力和稳定性,并且能够避免过拟合问题,因此更受到该领域研究者的关注。集成学习的基本思想是使用多个基础学习器对数据集进行学习,并对学习结果进行集成得到最终输出。相对于单一的学习模型,集成学习具有更强的泛化能力和预测效果。基于以上的考虑,本文针对消费者群体的多样性和类别不均衡性提出了基于有监督聚类和集成学习的数据库营销模型,并且从单个基础学习器的个体性能以及各基础学习器之间差异性的角度进一步提高集成学习在非平衡数据集上的分类性能。具体而言,本文首先使用有监督聚类对训练集中多数类样本进行聚类,得到多个数据簇,再与少数类样本组合进而得到多个类别均衡的可供训练的数据子集。在此基础上使用BP神经网络进行学习,并对基础学习器的结果进行动态集成,实证研究表明,文章所提出的模型在可有效提高数据库营销的准确率。
【关键词】:数据库营销 分类预测 有监督聚类 集成学习
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;F274
【目录】:
  • 中文摘要3-4
  • 英文摘要4-8
  • 1 绪论8-12
  • 1.1 课题的研究背景和意义8-10
  • 1.2 研究内容和创新点10
  • 1.2.1 研究内容10
  • 1.2.2 主要创新点10
  • 1.3 论文的组织结构10-12
  • 2 国内外研究现状12-21
  • 2.1 基于数据层面的研究现状13-14
  • 2.2 基于算法层面的研究现状14-16
  • 2.3 基于评价方法层面的研究现状16-19
  • 2.3.1 F-measure评价法17-18
  • 2.3.2 ROC曲线18-19
  • 2.4 本章小结19-21
  • 3 数据库营销优势及存在问题21-27
  • 3.1 数据库营销概述21-22
  • 3.2 数据库营销的优势22-23
  • 3.3 数据库营销存在的问题23-24
  • 3.4 数据类别不均衡的分类预测问题24-27
  • 3.4.1 类别不均衡数据问题概述24-25
  • 3.4.2 类别不均衡数据分类困难原因分析25-27
  • 4 基于集成学习的数据库营销模型27-40
  • 4.1 模型所使用的基本算法概述27-34
  • 4.1.1 K-means聚类27-29
  • 4.1.2 BP神经网络算法29-32
  • 4.1.3 集成学习方法32-34
  • 4.2 模型框架34-35
  • 4.3 数据预处理35-36
  • 4.4 有监督聚类36-38
  • 4.5 集成学习模型38-39
  • 4.6 本章小结39-40
  • 5 实证研究和结果分析40-49
  • 5.1 数据简介40-41
  • 5.2 用于比较的方法41-45
  • 5.2.1 SMOTE算法41-42
  • 5.2.2 FN欠采样算法42-43
  • 5.2.3 GA / ANN算法43-45
  • 5.3 评价准则45-46
  • 5.3.1 命中率45
  • 5.3.2 升力曲线45-46
  • 5.4 实证结果46-47
  • 5.5 本章小结47-49
  • 6 结论与展望49-51
  • 6.1 研究结论49-50
  • 6.2 工作展望50-51
  • 致谢51-52
  • 参考文献52-57
  • 附录 作者在攻读硕士学位期间发表论文的目录57

【参考文献】

中国期刊全文数据库 前5条

1 赵自翔;王广亮;李晓东;;基于支持向量机的不平衡数据分类的改进欠采样方法[J];中山大学学报(自然科学版);2012年06期

2 周涛;陆惠玲;;数据挖掘中聚类算法研究进展[J];计算机工程与应用;2012年12期

3 邓晓懿;金淳;j 口良之;韩庆平;;移动商务中面向客户细分的KSP混合聚类算法[J];管理科学;2011年04期

4 陶新民;刘福荣;童智靖;杨立标;;不均衡数据下基于SVM的故障检测新算法[J];振动与冲击;2010年12期

5 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期

中国硕士学位论文全文数据库 前1条

1 周永进;BP网络的改进及其应用[D];南京信息工程大学;2007年



本文编号:988989

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/xmjj/988989.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d1ef2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com