搜索引擎广告中广告商状态建模
本文关键词:搜索引擎广告中广告商状态建模,由笔耕文化传播整理发布。
计算机研究与发展
ISSN
1000—12391CN11—1777/TP
!!坠兰垒』竺垒三垒丝坠:窒!垒.!竺!!呈!!竺!里竺竺里竺竺!垦!!!!!!!!呈!望竺!!竺旦竺:些=============三===============================222====222252225——————————————————————————一。搜索引擎广告中广告商状态建模
姜昌浩h2门
张
敏1’2’3高斌4
北京
刘奕群1’2‘3
100084)
马少平1’2’3
1(智能技术与系统国家重点实验室
z(清华信息科学与技术国家实验室(筹)。(清华大学计算机科学与技术系,北京
4(微软亚洲研究院北京(jch.cst@gmail.corn)
100080)
北京
100084)
100084)
AdvertiserStatus
ModelinginSponsoredSearch
JiangChangha01’2~,ZhangMinl?2~,GaoBin4,LiuYiqunl’2~,andMaShaopin91?2’3
1(StateKeyLaboratoryofIntelligentTechnologyandSystems,Beijing100084)2(TsinghuaNationalLaboratoryfor
InformationScienceandTechnology,Beijing100084)
3(DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084)
4(Microsoit
Abstract
ResearchAsia,Beijing100080)
Sponsoredsearchis
source
a
successfulbusinessmodelcurrently
on
theInternet.Ithasbecomethe
mainincome
ofsearchenginecompaniesandhasofferedgreatopportunitiesforadvertisers.
user
Searchengine,advertiserand
tire
thethreemaincomponentsinsponsoredsearch.Searchengine
contents
offerstechnologyandadvertisementservice,advertiseroffersadvertisementandclicksadvertisements.Relatedtechnologiesofsearchengineand
user
while
user
views
behaviorhavebeenstudied
status
anddevelopedbymanyresearchers.However,advertisersespeciallythebeenstudiedwellinthearea.Basedadvertisers.Technically,suchthe
cost
status
on
ofadvertisershas
on
not
suchsituation,weconducteddeepanalysis
the
status
of
iSdemonstratedbytheimpressionnumber,theclicknumberand
oftheadvertiser’Sadvertisements.Thenhidden
status
MarkovmodeliSutilizedin
demonstrating
suchsequential
ofadvertisers.Thefocusis
on
introducingmethodologiesofmachinelearning
anddataminingintoadvertisermodeling.Atthesametime,wegethighprecisionwhenpredictingadvertiserKeywords
status
with
our
model,whichconvinces
US
thatsuchmethodiSsuitable.
sponsoredsearch;advertiser;tailadvertiser;statusmodeling;hidden
Markovmodel
(HMM)
摘要搜索引擎广告是目前互联网上一种非常成功的商业模式,它已成为搜索引擎公司的主要收入来源并为广告商们提供了许多商机.搜索引擎、广告商和搜索用户构成了搜索引擎广告的3个主要组成部
分——搜索引擎提供技术和服务、广告商提供广告内容、用户浏览并点击广告.其中搜索引擎相关技术
以及用户行为都有比较多的研究和成型的技术,但对广告商尤其是广告商状态的研究却并不多见.基于此背景,对搜索引擎广告中广告商的状态进行了深入的研究.在方法上按照广告商相关广告的展示次数、点击次数以及广告费用来对其潜在状态进行描述和划分,并使用隐Markov模型对广告商的时序状态进行建模.重点在于将机器学习和数据挖掘的方法应用于广告商的建模之中,并取得了不错的预测正
确率.
关键词搜索引擎广告;广告商;长尾广告商;状态建模;隐Markov模型
中图法分类号TP391.4
收稿日期:201卜12—30;修回日期:2013—05—31
万方数据
2622
从概念上讲,互联网广告就是在互联网上傲的广告.网站利用广告横幅、文本链接或者多媒体的方法,在互联网上刊登以及发布广告,旨在通过网络作为媒介将广告信息传递给互联网用户.随着经济的发展,互联网的普及应用率也越来越高,互联网越来越渗入到平常百姓的生活当中.与传统的传播媒
体——报纸、杂志、电视、广播等比起来,互联网广告
有很多得天独厚的优势,越来越成为现代营销战略的重要组成部分.
来自eMarket.corn的统计分析数据表明,人们的空闲时间花费在互联网上的时间达到了总量的29%,然而广告商花费在互联网上的广告费用支出只占总支出的8%.报纸作为传统广告媒介只占用了人们8%的时间,却吸引了高达20%的广告费用投入在其上.可见广告价值与实际投人之间还留有一定空间和差距.另一方面也可以有力地说明,互联网广告还有巨大的潜力和商业价值等待广告商和互联网公司去挖掘.
搜索引擎广告是目前互联网上一种非常成功的商业模式,它已成为搜索引擎公司的主要收入来源并为广告商们提供了许多商机n≈].参参与搜索引擎广告的3个主体分别是广告商、搜索引擎和搜索用户.一个搜索引擎只有拥有足够数量的广告商,才能够有机会将足量的广告提供给用户,并赢得收入;只有拥有高质量的广告商,才能够给用户提供高质量、高相关性的广告,才能赢得用户的信赖,提高用户体验.由此看来广告商对搜索引擎来说是非常重要的.
然而事实上,搜索引擎广告中广告商流失率很高,许多广告商注册一段时间就变成非活跃状态或者离开.如何留住更多的广告商,如何检测广告商状态并根据该状态向广告商提供个性化的服务已经成为制约搜索引擎提高其服务质量的瓶颈.所以,搜索引擎有必要对广告商的状态进行区分和定义,并利用历史数据来估计广告商的当前状态并对未来发展的趋势进行预测.
目前对广告商的状态并没有统一的定义,按照我们的理解,广告商的状态应该指广告商所处的一种形态,而这种形态能够对广告商当前的表征进行解释并影响广告商未来的行为.例如,“不积极”可以是一种状态,“不满意”也可以作为描述状态的一种不错的方式.但由于这些主观性的衡量难以实际操作,所以在本文的研究中,我们利用广告商支付广告
万方数据
计算机研究与发展2013,50(12)
费用的多少来对广告商的积极性以及满意程度进行衡量,并利用广告商潜在的发展趋势对广告商的状态进行区分.基于此,本文的研究工作主要集中在如何可行地定义并区分广告商的状态以及如何对广告商的状态进行建模.
1相关工作
在搜索引擎广告领域,与提高性能和广告相关性等相关研究方兴未艾[3。7],广告商状态研究并没有很多已发表的结果,学术界对搜索引擎广告的广告商并未投入足够的关注.但在电信业,关于电信用户流失的预测和分析吸引了大量的研究.因为客户流失管理是电信运营商通过对客户需求的满意度调查而进行的有针对性地挽留客户的重要方法和必要前提.客户流失管理中重要的一环就是对客户的流失行为进行预测和分析.
而关于电信用户流失的预测则与本研究中对广告商的建模及分析比较类似.首先,在电信业中,电
信用户是付费方,电信公司依赖用户缴纳的服务费作为主要收入,搜索引擎广告中广告商是付费方,搜
索引擎通过向广告商提供广告服务而收取广告费用.其次,电信用户或广告商是否继续使用该电信公司或搜索引擎公司所提供的服务,取决于对该电信公司或搜索引擎公司所提供服务的满意程度与付费方自身对资费的承受能力.最后,这种满意度或者承受能力是难以衡量的,需要使用用户的其他特征来进行建模、分析和预测.
在电信领域中,很多研究人员已经开始利用机器学习的方法来对电信客户的流失情况进行预测睁10].从结果来看,上述方法能够对电信客户进行比较准确的流失预测.可见,电信领域用户流失预测的分析方法可以作为广告商流失预测的参考.但由于领域毕竟有所差异,数据的形式和维度有所不同,相关方法并不能直接利用到搜索引擎广告中.
2搜索引擎广告数据分析
本节将具体介绍本研究中实验数据的来源和基本情况,将根据一些规则将广告商分成巨头广告商和长尾广告商.并按照不同的分类对广告商相关数据进行分析.通过分析可以看出广告商的一些性质,从中也能够说明广告商建模相关研究的必要性.
姜昌浩等:搜索引擎广告中广告商状态建模
2623
_一_—————————————————————————————————————————————————————一
商从展示次数开始就展示出了巨大的差异.
2.1
数据及预处理
本文的数据来源于某商业搜索引擎在美国广告
业务的真实数据.
本文使用的广告商日常特征数据为2010年全年的数据采样(广告商名称、账户信息等涉及隐私的信息均不可见).
广告商账户数据库主要使用了广告商的账户建立时间以及新建信息,我们从2009—12下旬到2010一01月底之间新建账户的广告商中随机采样并作为备选,参与到广告商的模型建立和测试之中.这样选取是希望能够将广告商的进入时间对齐,也方便对广告商的整个生命周期的研究.经统计发现,有些广告商账户的维持时间非常短,并且由于本研究集中于广告商的长期时序行为,所以需要将抽样账户中维持时间较短(在2010—12前注销)的广告商过滤掉.另外,对于那些虽然并没有删除账户,但是自始自终没有建立广告或者没有向搜索引擎付款的广告商,在本研究中被认定为没有参与到广告业务中来,所以将抽样集内这类广告商也过滤掉.经过抽样和过滤后,广告商数目依然足够多,满足建模要求.因涉及搜索引擎商业秘密,此处并不列出相关数据大小的具体描述.2.2广告商数据分析
广告费用是搜索引擎衡量一个广告商的主要因素,也是衡量一个广告商在搜索引擎广告上投入程度的很好标准.我们按照费用的多少,通过设置一个
∞
Fig.2
Distributionofadvertisernumbernumber.
on
,‘’
一..
Impression(LOG)BucketNumber(LinearIncreasing)
Fig.1
Distributionofadvertisernumbernumber.
on
impression
图1展示次数的广告商数量分布
A‘??_?-?Giant
/\…Tan
/’、/
\\
了-…夕、.|\≮
click
图2点击次数的广告商数量分布
阈值尺,将广告商分成巨头广告商(Giant)和长尾广告商(Tail).阈值的选取保证了巨头广告商的广告费用之和为总广告费用的90%.
于是,我们得到如下几种广告商的分类:1)长尾广告商.如果一个广告商的广告费用小于R,我们称之为长尾广告商.
2)巨头广告商.如果一个广告商的广告费用大于R,我们称之为巨头广告商.
如图l~3所示,3幅坐标图分别表示3种特征(展示次数、点击次数和广告费用)上广告商数量的分布①.其中横坐标为不同区间(Bucket)的标号.从上述统计结果和分析中可以看出,图3中广告费用上呈现出了长尾效应,广告商中少量(5%左右)的巨头广告商就能够提供给搜索引擎全部收入中的绝大部分(90%).而图2中点击次数上的差距要略小于广告费用.从图1可以看出,长尾广告商与巨头广告
Fig.3
∞∞
一Giam
If\…喇?
∞
m
O
1
.rf-’j、.I
j。l
i…℃…~
on
revenue
Revenue(LOG)Bucket
Number(LinearIncreasing)
Distributionofadvertisernumber
图3广告费用的广告商数量分布
3广告商状态建模
在本节中我们将讨论广告商日常特征模型.将具体讨论模型基本思路、模型中相关的特征设定、模型如何选取抽象的观测以及模型的具体设置.
①3种特征值依据大小不同按对数均分成多个区间,因商业机密,此处列出区间号,,并不展示绝对数值
万方数据
2624
计算机研究与发展2013,50(12)
3.1基本思路
广告商的各种特征和状态都是时间序列,过去利用该类特征时往往忽略时序的特性,本研究希望利用时间序列来进行分析,通过建立一般易观测的特征与状态之间的联系,利用时序数据进行建模,并对最后的结果进行预测和分析.3.2状态与观测的抽象
本文中采用搜索引擎收入,也就是广告商支付给搜索引擎的广告费用来衡量广告商状态.我们认为广告费用体现了广告商的一种支付意愿,也是点击量和广告出价的一种综合表现,所以广告费用在一定程度上能够衡量广告商的表现.从搜索引擎角度,广告费用是搜索引擎的直接收入,是搜索引擎衡量广告商重要程度的主要指标.于是我们按照广告费用数值的高低,将广告商分成3种类型(type):巨头广告商、一般广告商(Ordinary)和长尾广告商.按照变化趋势的上升、下降或稳定,将广告商分成3种:上升期广告商(Ascending)、稳定期广告商(Stable)以及下降期广告商(Descending).通过区分两个维度(每种维度分别有3种状态),我们将广告商分到3×3共9个离散的状态(status)中.具体的参数设置将在4.1节中进行具体介绍.
广告商的点击次数和展示次数与广告费用一样,也是重要的指标.同时,比起广告费用,这2个数据更容易获得.在实验中,我们为了简化该模型,直接利用了点击次数和展示次数的发展趋势.于是我们同样是按照上升、稳定和下降3种趋势将点击次数和展示次数2种特征进行离散化,于是在点击次数和展示次数2个维度上,我们将广告商在每月的表现分成3×3个共9种离散的观测(observation).于是我们就建立了离散的9种状态和9种观测.
根据上述划分原则,我们得到并命名如下状态和观测如表1、表2所示:
Table1
DescriptionsofNineObservations
表1
9种抽象观测的说明
Table2
Descriptions
ofNineStatuses
表29种抽象状态的说明
3.3基于HMM的模型设计
我们利用隐Markov模型(HMM)[1卜”]来描述广告商的状态和观测之间的关系,如图4所示.其中隐变量为广告商不同月份的状态,显示变量为不同月份的观测数据.可见,隐变量之间有时序的依赖关系,相同月份的状态会影响观测.
Fig.4
HMMmodeldesign.HMM模型设计
图4
们得出了该模型的预测正确率.4.1状态区分及参数选取
4实验与数据统计
在本节中,我们对第3节内容中提出的广告商模型进行实验分析和具体的数据处理.通过实验,我
我们已经选定了状态的划分方法,但在实验中,要具体选取参数来确定状态的区分规则.参数的选取既需要照顾到我们对于状态的定义,也同时要使
万方数据
本文关键词:搜索引擎广告中广告商状态建模,由笔耕文化传播整理发布。
本文编号:66926
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/66926.html