当前位置:主页 > 管理论文 > 统计学论文 >

基于RF、XGBoost和FFM集成的CTR预估

发布时间:2020-08-10 23:04
【摘要】:互联网大数据时代,广告投入方和广告展示商会根据广告点击率作出竞拍决策,因此CTR预测的准确性对公司有很高的商业价值。机器学习在预测广告点击率方面起核心作用,CTR预估模型的研究具有实际商业应用价值以及理论研究价值。CTR预估中常用的模型是逻辑回归,但是在广告问题方面,首先数据维度高,数据量非常大,并且特征之间存在相关信息。以前,实际应用中需要快速处理数据并进行特征选择,很大程度需要依靠人工经验,花费精力的同时不一定能带来好的效果。另一方面,特征之间存在一些关联信息,增加有效信息能提高预测的准确性。因此如何快速自动发现有效特征及构建有效特征组合是CTR预估的关键问题。本文在现有常用GBDT构建特征组合并通过LR进行预测的回归模型基础上,将可并行化的XGBoost算法代替传统GBDT,并加入特征之间的相关信息,用〈wi,fj',fi〉xixj表示特征二阶交叉信息,即构建了 FFM模型,添加到sigmoid函数得到预测概率值。本文还研究了集成学习的方式和有效性,将FFM模型的预测值作为新特征和已有特征一起输入RF模型和XGBoost模型学习,由此建立了 XGBoost+FFM,FFM+RF,FFM+XGBoost的集成学习模型。在实证方面,主要使用logloss评估指标,与先前模型作对比,从准确性、运算速度、稳定性分析所建模型的优点。本文模型的主要优点有三个。第一,本文考虑了特征之间的相关信息,考虑广告数据的稀疏性,引入因子分解的方式构建FFM模型,相比传统的LR模型,FFM模型有更好的非线性拟合能力。第二,XGBoost的近似直方图算法实现了提升法的并行计算,比之前的GBDT的运算速度明显加快,并且准确性也高。第三,集成学习的方式大大提升了模型的泛化能力,且准确性有一定保证。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:C81
【图文】:

集成学习,模型结构,模型构造


一起输入RF模型和XGBoost模型学习,并且通过XGBoost模型构造新特征组合,和原逡逑始特征一起作为FFM的输入,由此建立了邋XGBoost+FFM,邋FFM+RF,FFM+XGBoost的逡逑集成学习模型。主要的模型结构如下图1-1所示:逡逑4逡逑

示意图,回归问题,学习器,学习算法


图3-1:邋Bagging学习流程示意图逡逑述,给出Bagging的学习算法(以回归问题为例):逡逑ithm邋3-3:邋Bagging算法(以回归问题为例)逡逑训练集£>邋=邋{(力,%)私1,参数8,基学习算法逡逑基学习器的组合结果逡逑样得到B个Bootstrap训练集丨D^=1逡逑r邋b邋=邋1,2,邋...,B邋do:逡逑用Boostrap训练集Z)b得到基学习器(x)逡逑dFor逡逑合b个学习器得到最终模型=逡逑验证明Bagging通常比单学习器的效果会有很大提升,虽然效果通ng,但是Bagging中的各个基学习器可以独立进行,简单适合并行计算,

示意图,回归问题,示意图,学习算法


逦T2(x)逡逑(S邋八-e2,逦—2>)逡逑一\逦=逡逑\(=口:一咖」逡逑图3-1:邋Bagging学习流程示意图逡逑综上所述,给出Bagging的学习算法(以回归问题为例):逡逑Algorithm邋3-3:邋Bagging算法(以回归问题为例)逡逑输入:训练集£>邋=邋{(力,%)私1,参数8,基学习算法逡逑输出:基学习器的组合结果逡逑1.

【相似文献】

相关期刊论文 前10条

1 徐继伟;杨云;;集成学习方法:研究综述[J];云南大学学报(自然科学版);2018年06期

2 武玉英;严勇;蒋国瑞;;基于动态选择性集成学习的供应链产销协商优化策略[J];计算机工程;2017年05期

3 张沧生;崔丽娟;杨刚;倪志宏;;集成学习算法的比较研究[J];河北大学学报(自然科学版);2007年05期

4 郭福亮;周钢;;集成学习中预测精度的影响因素分析[J];兵工自动化;2019年01期

5 米硕;孙瑞彬;李欣;明晓;;集成学习在文本分类问题中的应用[J];中国新通信;2018年09期

6 李晔;刘胜利;张兆林;;基于漂移检测和集成学习的木马检测模型[J];信息工程大学学报;2017年06期

7 徐桂云;陈跃;张晓光;刘云楷;;基于选择性集成学习的焊接缺陷识别研究[J];中国矿业大学学报;2011年06期

8 张春霞;张讲社;;选择性集成学习算法综述[J];计算机学报;2011年08期

9 饶峰;;核机器集成学习算法的误差分析[J];重庆文理学院学报(自然科学版);2010年04期

10 史双睿;;异质集成学习器在鸢尾花卉分类中的应用[J];电子制作;2019年02期

相关会议论文 前10条

1 关鹏洲;王梦毫;李倩;;基于集成学习和深度学习的短期降雨预测模型[A];2017年(第五届)全国大学生统计建模大赛获奖论文选[C];2017年

2 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年

3 倪志伟;张琛;倪丽萍;;基于萤火虫群优化算法的选择性集成霾天气预报方法[A];中国系统工程学会第十八届学术年会论文集——A12系统科学与系统工程理论在各个领域中的应用研究[C];2014年

4 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年

5 吴龙飞;孙浩;计科峰;;基于集成映射的半监督图像分类方法[A];第八届全国信号和智能信息处理与应用学术会议会刊[C];2014年

6 邱诚;倪子伟;陈珂;苏旋;邹权;;基于聚类方法的基分类器选择策略研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

7 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年

8 程丽丽;张健沛;杨静;马骏;;一种提高支持向量机集成差异性的学习方法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

9 刘锟;邢延;蔡延光;;一种针对交互式学习系统日志数据的轻型化挖掘方法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年

10 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

相关重要报纸文章 前1条

1 本报记者 张晔;人脑比电脑更重要[N];科技日报;2008年

相关博士学位论文 前10条

1 李艳秋;基于集成学习的人脸识别研究[D];合肥工业大学;2018年

2 赵鹤;面向高维大数据的子空间集成学习方法研究[D];中国科学院大学(中国科学院深圳先进技术研究院);2017年

3 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年

4 侯勇;特征提取与集成学习算法的研究及应用[D];北京科技大学;2015年

5 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年

6 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年

7 阿里木·赛买提(Alim.Samat);基于集成学习的全极化SAR图像分类研究[D];南京大学;2015年

8 刘冲;模拟电路故障诊断AdaBoost集成学习方法研究[D];大连海事大学;2011年

9 钮冰;基于集成学习算法的若干生物信息学问题研究[D];上海大学;2009年

10 程丽丽;支持向量机集成学习算法研究[D];哈尔滨工程大学;2009年

相关硕士学位论文 前10条

1 王雪萍;基于RF、XGBoost和FFM集成的CTR预估[D];浙江大学;2018年

2 宋佳智;基于集成学习的膜蛋白金属离子结合位点预测[D];东北师范大学;2018年

3 赵振贺;基于集成学习思想的矿产资源预测模型研究[D];吉林大学;2018年

4 赵帅;基于集成学习的高斯过程回归软测量建模方法研究[D];江南大学;2018年

5 郑旭曼;基于集成学习的O_3浓度逐小时预测模型研究[D];华东师范大学;2018年

6 刘毅;基于集成学习算法的冠心病早期筛查方法研究[D];山东大学;2018年

7 李鹏鹏;基于集成学习的文本分类方法研究[D];西安工业大学;2018年

8 王军;具有概念漂移的数据流分类研究[D];安徽工程大学;2018年

9 王茹雪;基于集成学习的不平衡数据分类算法的研究[D];吉林大学;2018年

10 刘文森;基于集成学习的短文本分类问题研究[D];国防科学技术大学;2016年



本文编号:2788726

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2788726.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户09e19***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com