互联网广告点击率预估模型中特征提取方法的研究与实现
发布时间:2018-08-22 08:20
【摘要】:互联网广告是一个具有上千亿元规模的市场,广告的点击率(CTR)是互联网广告投放效果的重要指标。在广告点击率预估模型中,特征提取是关键因素,特征的好坏直接影响到最终模型的效果。针对如何提高广告点击率预估效率问题,在Hadoop大数据平台环境中,提出了基于梯度提升决策树(gradient boost decision tree,GBDT)模型的多维特征提取方法。该方法利用原始数据构建多维基础特征库,并将基础特征库中除ID类特征以外的其余特征输入GBDT模型进行特征刷选,得到高层特征,进一步进行分类。该方法的使用不仅减少了特征提取的人工成本和时间成本,也在很大程度上提升了模型的精度。
[Abstract]:Internet advertising is a market with a scale of hundreds of billions of yuan. The click rate of advertising (CTR) is an important indicator of the effect of Internet advertising. Feature extraction is the key factor in the prediction model of ad click rate, and the quality of feature directly affects the effect of the final model. Aiming at how to improve the efficiency of ad click rate estimation, a multi-dimensional feature extraction method based on gradient elevation decision tree (gradient boost decision tree-GBDT) model is proposed in the environment of Hadoop big data. In this method, the multi-dimensional basic feature database is constructed from the original data, and the other features in the basic feature base except ID class feature are input into the GBDT model for feature selection, and the high-level features are obtained for further classification. The use of this method not only reduces the labor and time cost of feature extraction, but also improves the accuracy of the model to a great extent.
【作者单位】: 北京工商大学计算机与信息工程学院;
【基金】:北京市自然科学基金重点项目B类(KZ201410011014);北京市自然科学基金青年项目(9164025) 2015年研究生科研能力提升计划资助项目 国家教育部人文社会科学研究青年基金资助项目(15YJCZH224)
【分类号】:TP311.13
[Abstract]:Internet advertising is a market with a scale of hundreds of billions of yuan. The click rate of advertising (CTR) is an important indicator of the effect of Internet advertising. Feature extraction is the key factor in the prediction model of ad click rate, and the quality of feature directly affects the effect of the final model. Aiming at how to improve the efficiency of ad click rate estimation, a multi-dimensional feature extraction method based on gradient elevation decision tree (gradient boost decision tree-GBDT) model is proposed in the environment of Hadoop big data. In this method, the multi-dimensional basic feature database is constructed from the original data, and the other features in the basic feature base except ID class feature are input into the GBDT model for feature selection, and the high-level features are obtained for further classification. The use of this method not only reduces the labor and time cost of feature extraction, but also improves the accuracy of the model to a great extent.
【作者单位】: 北京工商大学计算机与信息工程学院;
【基金】:北京市自然科学基金重点项目B类(KZ201410011014);北京市自然科学基金青年项目(9164025) 2015年研究生科研能力提升计划资助项目 国家教育部人文社会科学研究青年基金资助项目(15YJCZH224)
【分类号】:TP311.13
【参考文献】
相关期刊论文 前1条
1 周傲英;周敏奇;宫学庆;;计算广告:以数据为核心的Web综合应用[J];计算机学报;2011年10期
【共引文献】
相关期刊论文 前10条
1 周丽玲;李聪;陶如意;;大数据时代广告专业人才的数据素养[J];新闻与传播评论;2016年00期
2 潘书敏;颜娜;谢瑾奎;;基于用户相似度和特征分化的广告点击率预测研究[J];计算机科学;2017年02期
3 王可伟;;基于大数据的品牌VIS设计分析与提升解决方案探讨[J];科技创新与应用;2017年01期
4 蒋精华;桂小林;郑宜峰;张学军;袁星亮;王聪;;支持加密搜索的定向息票安全投放框架[J];西安交通大学学报;2017年02期
5 伊雯雯;;基于多维特征组合逻辑回归模型的广告点击率预测[J];通信技术;2016年09期
6 邱月;;个性定制:大数据时代的精准广告——以淘宝和腾讯的在线计算广告为例[J];北方传媒研究;2016年03期
7 刘庆振;;“互联网+”时代的计算广告学:产生过程、概念界定与关键问题[J];新闻知识;2016年06期
8 贾彦荣;周宝成;徐火英;张伟;;仪器分析虚拟仿真实验系统的应用与构建研究[J];浙江理工大学学报;2016年06期
9 袁勇;曾大军;李娟娟;秦蕊;;实时竞价广告研究述评[J];信息系统学报;2016年01期
10 田嫦丽;张s,
本文编号:2196532
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2196532.html