基于可扩展分解机器的搜索广告点击率预估
本文关键词: 搜索广告 点击模型 可扩展分解机器 特征体系 CTR预估 出处:《浙江大学》2013年硕士论文 论文类型:学位论文
【摘要】:搜索广告通过用户的检索行为触发广告的生成,是目前互联网流量变现的主要模式之一。搜索引擎一般按照广告的点击率(Click-Through-Rate, CTR)和广告的出价之积来筛选广告,其中CTR预估是核心问题之一,它对搜索引擎的收入和用户的体验都有重大影响,点击模型是预估CTR的主要方式。但是,由于搜索广告数据量大,特征维度高且长尾现象明显,目前大多数点击率预估系统无法高效的在如此大量的稀疏且高维的数据上准确预估CTR。因此设计恰当的特征体系,建立高效可扩展的点击模型,并且利用在线优化算法快速迭代成为急需解决的三个问题。本文的主要工作如下: 1.提出点击率预估特征设计原则,基于此提出五组特征,包括从用户,广告,以及环境三个维度,由单特征到组合特征,统计特征等多粒度的特征集合; 2.设计了用作点击模型的可扩展分解机器SFM,利用维度树结构将分解机器所基于的切片张量分解重构成层次切片分解。由于利用了层次结构,不仅模型的空间复杂度大大下降而且方便了在线算法的设计,此外,借助于分解模型,模型能在长尾数据上更准确的预估参数,利用proximal gradient方法,在线工作集优化算法能更快收敛。 3.基于真实搜索广告日志数据进行了三组实验来模拟线上CTR的预估,结果表明,CTR特征体系能够有效提升模型对搜索广告点击率预估的准确度,SFM相比FM能够有效降低模型的存储空间,online策略的工作集算法比batch策略能更快的收敛到局部最优解,在点击率预估方面,SFM在高频和长尾搜索日志数据上的CTR预估准确度以及排序能力均于好于作为基线模型的分解机器,Logistic Regression模型和User Browsing模型。
[Abstract]:Search advertising triggers the generation of advertisements through users' retrieval behavior, which is one of the main modes of Internet traffic realization at present. Search engines usually screen advertisements according to the click rate of advertisements and the product of advertising bids. CTR estimation is one of the core problems, which has a significant impact on search engine revenue and user experience. Click model is the main way to predict CTR. However, because of the large amount of search advertising data, the feature dimension is high and the phenomenon of long tail is obvious. At present, most click rate prediction systems can not predict CTRs accurately on such a large amount of sparse and high-dimensional data. Therefore, the appropriate feature system is designed to build an efficient and scalable click model. And the rapid iteration of online optimization algorithm has become the urgent need to solve three problems. The main work of this paper is as follows:. 1. The principle of feature design for the prediction of click rate is proposed. Based on this, five groups of features are proposed, including the multi-granularity feature set from user, advertisement and environment, from single feature to combinatorial feature and statistical feature. 2. The scalable decomposition machine SFMused as click-model is designed. The slice Zhang Liang based on the decomposition machine is decomposed into hierarchical slices by using dimension tree structure. Not only the space complexity of the model is greatly reduced, but also the design of the online algorithm is convenient. In addition, with the help of the decomposition model, the model can predict the parameters more accurately on the long tail data and use the proximal gradient method. The online working set optimization algorithm can converge faster. 3. Based on the real search advertising log data, three groups of experiments are carried out to simulate the online CTR prediction. The results show that the CTR feature system can effectively improve the accuracy of the model in predicting the click rate of search advertisements. Compared with FM, the working set algorithm of the model can effectively reduce the storage space of the model and converge to the local optimal solution faster than the batch strategy. The accuracy and sorting ability of CTR prediction on high frequency and long tail search log data are better than that of decomposition machine logistic Regression model and User Browsing model.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【共引文献】
相关期刊论文 前10条
1 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
2 黎星星;Building a better recommender system in E-commerce[J];Journal of Chongqing University;2003年01期
3 朱郁筱;吕琳媛;;推荐系统评价指标综述[J];电子科技大学学报;2012年02期
4 江爱朋;邵之江;方学毅;郑小青;钱积新;;基于有限存储的简约空间序列二次规划算法研究[J];电路与系统学报;2007年05期
5 于江德;樊孝忠;庞文博;余正涛;;基于条件随机场的语义角色标注(英文)[J];Journal of Southeast University(English Edition);2007年03期
6 侯治平;;用户行为模式下电子商务网站个性化推荐研究[J];电脑与信息技术;2011年04期
7 谷钰;薛国明;;基于ACM在线评测推荐系统模型研究[J];电脑知识与技术;2011年07期
8 刘兆兴;张宁;李季明;;基于协同过滤和网络结构的个性化推荐算法[J];复杂系统与复杂性科学;2011年02期
9 王惠文;孙晓丹;;时序立体数据多元线性回归建模方法[J];系统工程;2009年11期
10 顾桂定,王德人;成组Broyden修正矩阵的紧凑形式与成组记忆修正算法[J];高等学校计算数学学报;1998年02期
相关会议论文 前7条
1 王周宏;;符号几何规划的全局解方法[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
2 刘中意;孙文瑜;;大型有界约束最优化问题的子空间有限存储BFGS算法(英文)[A];中国运筹学会第九届学术交流会论文集[C];2008年
3 李在禾;;等式约束优化的一个子空间算法的下降性质(英文)[A];中国运筹学会第九届学术交流会论文集[C];2008年
4 孙江明;李通化;;三维非负张量分解及其在反应动力学中的应用[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
5 ;An Analysis on the Personalized Recommendation Architecture of Mobile Commerce Application[A];第六届(2011)中国管理学年会——管理科学与工程分会场论文集[C];2011年
6 ;COLLABORATIVE FILTERING RECOMMENDATION ALGORITHM BASED ON LOOK-AHEAD SELECTIVE SAMPLING[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
7 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接类别方法在基于条件随机场的中文分词中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
相关博士学位论文 前10条
1 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年
2 孙霖;人脸识别中的活体检测技术研究[D];浙江大学;2010年
3 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
4 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
5 刘浩;大规模非线性方程组和无约束优化方法研究[D];南京航空航天大学;2008年
6 吴强;基于听觉感知与张量模型的鲁棒语音特征提取方法研究[D];上海交通大学;2010年
7 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
8 郑辛甜;丹酚酸B、丹酚酸A和黄芩苷的降解规律研究[D];浙江大学;2011年
9 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
10 杨洪礼;非负矩阵与张量分解及其应用[D];山东科技大学;2011年
相关硕士学位论文 前10条
1 何莹杰;个性化图书信息服务技术研究[D];哈尔滨工程大学;2010年
2 杜慧;张量和小波特征的洛伦兹度量学习及其应用[D];大连理工大学;2010年
3 何克勤;基于标签的推荐系统模型及算法研究[D];华东师范大学;2011年
4 陈冰泉;面向农产品信息的主题搜索引擎与信息推荐[D];华南理工大学;2010年
5 徐爱武;互动问答系统中问题回答者推荐研究[D];浙江大学;2011年
6 姜智尧;基于Java技术的个性化推荐系统与实现[D];吉林大学;2011年
7 李高敏;基于协同过滤的教学资源个性化推荐技术的研究及应用[D];北京交通大学;2011年
8 刘继庆;基于相关度和关联属性偏好的个性化推荐算法研究[D];大连理工大学;2011年
9 杨叶坤;协同过滤技术在个性化资源推荐中的应用研究[D];大连海事大学;2011年
10 何秀娟;基于信任的协同过滤推荐模型研究[D];杭州电子科技大学;2011年
,本文编号:1498403
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1498403.html