基于改进的Pareto/NBD模型预测博客用户在线行为
发布时间:2021-06-27 11:43
博客用户在线行为分为发文行为和流失行为。由于这两种行为分别与交易过程中客户的购买行为和流失行为具有相似性,选择借鉴客户基分析中的Pareto/NBD模型进行预测。考虑到用户间交互性对博客用户在线行为具有重要影响,通过比例风险模型向经典的Pareto/NBD模型中加入体现用户间交互性的协变量。Pareto/NBD模型经过改进,实现了对博客用户在线行为的预测。实证研究以用户博客空间中的总评论量和总浏览量作为协变量。数据分析结果显示,当使用总评论量作为影响流失行为的协变量时,改进模型的预测精度显著提高。进一步分析还发现,总评论量对博客用户"存活"时长的正向激励存在着阈值。
【文章来源】:统计与信息论坛. 2013,28(06)CSSCI
【文章页数】:7 页
【部分图文】:
图1累计发文次数比较图原模型在验证期高估累计发文次数的根本原因
。建模期内具有相同发文次数的用户的平均活跃度见图3所示。鉴于非契约中企业无法察觉到客户何时流失,因此本研究将两种模型的预测值与经验值进行对比。根据经验判断用户是否流失的具体方法是,若该用户在验证期中没有出现发文行为,则认为该用户已经流失。就总体趋势而言,活跃度随着用户发文次数的增多而增大。改进前后模型的预测值差别不大,在大多数发文次数的取值点上,这些预测值与经验值相吻合。部分取值点上活跃度被低估的主要原因是具有较高发文次数用户的样本量较少,增大了随机误差出现的可能性。图2每天发文次数比较图图3用户活跃度比较图仔细观察两种模型的预测值可以发现,加入协变量后的模型显著提高了发文次数为零的用户的活跃度的预测效果(原模型的预测值高估了107.87%,改进后模型预测值仅低估了15.80%)。由于发文次数为零用户的数量占到样本总数的60.7%,因此提高该取值点上的预测效果将显著提高整个样本客户基规模的预测效果。建模期内具有相同发文次数的用户在验证期内发文次数的平均值见图4所示。改进前后的模型对实际数值都有较好的拟合度。但对发文次数为“13+”的用户而言,原模型明显高估了他们的条件期望值(高估了61.06%),而加入协变量后的模型预测值将高估比例下降到13.58%。通过对上述四项预测值的分析可发现,使用Pareto/NBD模型对博客网站中的客户基进行分析取得了不错的效果,但各项预测值仍存在一些不足之处。将观察期末个体用户博客空间中的总评论数作为协变量加入原模型之后,原模型预测值中的不足之处均得到较为显著的改进,由此可认为,用户间交互性确实对博客用户在线行为产生了显著
具有较高发文次数用户的样本量较少,增大了随机误差出现的可能性。图2每天发文次数比较图图3用户活跃度比较图仔细观察两种模型的预测值可以发现,加入协变量后的模型显著提高了发文次数为零的用户的活跃度的预测效果(原模型的预测值高估了107.87%,改进后模型预测值仅低估了15.80%)。由于发文次数为零用户的数量占到样本总数的60.7%,因此提高该取值点上的预测效果将显著提高整个样本客户基规模的预测效果。建模期内具有相同发文次数的用户在验证期内发文次数的平均值见图4所示。改进前后的模型对实际数值都有较好的拟合度。但对发文次数为“13+”的用户而言,原模型明显高估了他们的条件期望值(高估了61.06%),而加入协变量后的模型预测值将高估比例下降到13.58%。通过对上述四项预测值的分析可发现,使用Pareto/NBD模型对博客网站中的客户基进行分析取得了不错的效果,但各项预测值仍存在一些不足之处。将观察期末个体用户博客空间中的总评论数作为协变量加入原模型之后,原模型预测值中的不足之处均得到较为显著的改进,由此可认为,用户间交互性确实对博客用户在线行为产生了显著影响。图4发文次数的条件期望比较图四、讨论根据经验判断,若某一用户博客空间内总评论数越多,则表明该用户与博客网站中其他用户的交互频率越高。此时,博客网站具有更强的粘性,该用户将“存活”更长的时间。接下来,本研究从群体层面出发,定量分析总评论数对流失行为造成的影响。在加入协变量后的模型中,群体用户在τ时刻的流失概率为:f(τ|s,β0,γ,tac)=sβ0exp(-γ·t
【参考文献】:
期刊论文
[1]Pareto/NBD模型在网络信息失效判别分析中的探索性研究[J]. 马费成,苏小敏,望俊成. 情报理论与实践. 2011(11)
[2]SMC模型在IT分销业的实证案例研究[J]. 齐佳音,李怀祖,舒华英,秦良娟. 系统工程理论与实践. 2004(03)
本文编号:3252779
【文章来源】:统计与信息论坛. 2013,28(06)CSSCI
【文章页数】:7 页
【部分图文】:
图1累计发文次数比较图原模型在验证期高估累计发文次数的根本原因
。建模期内具有相同发文次数的用户的平均活跃度见图3所示。鉴于非契约中企业无法察觉到客户何时流失,因此本研究将两种模型的预测值与经验值进行对比。根据经验判断用户是否流失的具体方法是,若该用户在验证期中没有出现发文行为,则认为该用户已经流失。就总体趋势而言,活跃度随着用户发文次数的增多而增大。改进前后模型的预测值差别不大,在大多数发文次数的取值点上,这些预测值与经验值相吻合。部分取值点上活跃度被低估的主要原因是具有较高发文次数用户的样本量较少,增大了随机误差出现的可能性。图2每天发文次数比较图图3用户活跃度比较图仔细观察两种模型的预测值可以发现,加入协变量后的模型显著提高了发文次数为零的用户的活跃度的预测效果(原模型的预测值高估了107.87%,改进后模型预测值仅低估了15.80%)。由于发文次数为零用户的数量占到样本总数的60.7%,因此提高该取值点上的预测效果将显著提高整个样本客户基规模的预测效果。建模期内具有相同发文次数的用户在验证期内发文次数的平均值见图4所示。改进前后的模型对实际数值都有较好的拟合度。但对发文次数为“13+”的用户而言,原模型明显高估了他们的条件期望值(高估了61.06%),而加入协变量后的模型预测值将高估比例下降到13.58%。通过对上述四项预测值的分析可发现,使用Pareto/NBD模型对博客网站中的客户基进行分析取得了不错的效果,但各项预测值仍存在一些不足之处。将观察期末个体用户博客空间中的总评论数作为协变量加入原模型之后,原模型预测值中的不足之处均得到较为显著的改进,由此可认为,用户间交互性确实对博客用户在线行为产生了显著
具有较高发文次数用户的样本量较少,增大了随机误差出现的可能性。图2每天发文次数比较图图3用户活跃度比较图仔细观察两种模型的预测值可以发现,加入协变量后的模型显著提高了发文次数为零的用户的活跃度的预测效果(原模型的预测值高估了107.87%,改进后模型预测值仅低估了15.80%)。由于发文次数为零用户的数量占到样本总数的60.7%,因此提高该取值点上的预测效果将显著提高整个样本客户基规模的预测效果。建模期内具有相同发文次数的用户在验证期内发文次数的平均值见图4所示。改进前后的模型对实际数值都有较好的拟合度。但对发文次数为“13+”的用户而言,原模型明显高估了他们的条件期望值(高估了61.06%),而加入协变量后的模型预测值将高估比例下降到13.58%。通过对上述四项预测值的分析可发现,使用Pareto/NBD模型对博客网站中的客户基进行分析取得了不错的效果,但各项预测值仍存在一些不足之处。将观察期末个体用户博客空间中的总评论数作为协变量加入原模型之后,原模型预测值中的不足之处均得到较为显著的改进,由此可认为,用户间交互性确实对博客用户在线行为产生了显著影响。图4发文次数的条件期望比较图四、讨论根据经验判断,若某一用户博客空间内总评论数越多,则表明该用户与博客网站中其他用户的交互频率越高。此时,博客网站具有更强的粘性,该用户将“存活”更长的时间。接下来,本研究从群体层面出发,定量分析总评论数对流失行为造成的影响。在加入协变量后的模型中,群体用户在τ时刻的流失概率为:f(τ|s,β0,γ,tac)=sβ0exp(-γ·t
【参考文献】:
期刊论文
[1]Pareto/NBD模型在网络信息失效判别分析中的探索性研究[J]. 马费成,苏小敏,望俊成. 情报理论与实践. 2011(11)
[2]SMC模型在IT分销业的实证案例研究[J]. 齐佳音,李怀祖,舒华英,秦良娟. 系统工程理论与实践. 2004(03)
本文编号:3252779
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3252779.html